Está en la página 1de 13

INSTITUTO TECNOLÓGICO DE GUSTAVO A.

MADERO

CARRERA: INGENIERÍA EN TECNOLOGÍAS DE LA


INFORMACIÓN Y COMUNICACIONES

MATERIA: INGENIERÍA DEL CONOCIMIENTO

PROFESORA: LORENA LÓPEZ SÁNCHEZ

ALUMNO: ZURIEL ROMÁN HERNÁNDEZ

EQUIPO: 5

UNIDAD 4: PROYECTO
ÍNDICE

INTRODUCCIÓN .............................................................................................................................. 2
OBJETIVOS ...................................................................................................................................... 2
DATA WAREHOUSE ....................................................................................................................... 2
ARQUITECTURA ............................................................................................................................. 3
Staging ........................................................................................................................................... 3
Core ................................................................................................................................................ 4
Data Mart ....................................................................................................................................... 4
Access ............................................................................................................................................ 4
OPERACIONES ............................................................................................................................... 5
PROCESOS QUE LA CONFORMAN ........................................................................................... 6
Definición de los objetivos........................................................................................................... 8
Diseño y modelización ................................................................................................................. 8
Implementación............................................................................................................................. 9
Revisión ......................................................................................................................................... 9
HERRAMIENTAS DE DISEÑO .................................................................................................... 10
GLOSARIO ...................................................................................................................................... 12
CONCLUSIONES ........................................................................................................................... 12
BIBLIOGRAFÍA ............................................................................................................................... 12

1
INTRODUCCIÓN

En el contexto de la informática, un almacén de datos (warehouse) Es una colección


de datos orientada a un determinado ámbito (empresa, organización, etc.),
integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en
la entidad en la que se utiliza.

Se usa para realizar informes y análisis de datos y se considera un componente


fundamental de la Inteligencia Empresarial. Se trata, sobre todo, de un expediente
completo de una organización, más allá de la información transaccional y
operacional, almacenado en una base de datos diseñada para favorecer el análisis
y la divulgación eficiente de datos

OBJETIVOS

• Conocer que es data warehouse.


• Aprender su arquitectura, operaciones y procesos que la conforman.
• Aprender sobre las herramientas de diseño.

DATA WAREHOUSE

Según (IBM, IBM , 2021) Data warehouse es un sistema que agrega y combina
información de diferentes fuentes en un almacén de datos único y centralizado;
consistente para respaldar el análisis empresarial, la minería de datos, inteligencia
artificial (IA) y Machine Learning. Data warehouse permite a una organización o
empresa ejecutar análisis potentes en grandes volúmenes (petabytes y petabytes)
de datos históricos de formas que una base de datos estándar simplemente no
puede.

Los data warehouses han sido parte de las soluciones de inteligencia empresarial
(BI) durante más de tres décadas, pero han evolucionado significativamente en los
últimos años. Tradicionalmente, un data warehouse tenía una implementación on-

2
premises, a menudo en un mainframe central, y su funcionalidad se centraba en
extraer datos de otras fuentes, limpiar y preparar la información, y cargar y mantener
los documentos en una base de datos relacional (Relational Database). Hoy en día,
un Data warehouse puede estar alojado en un dispositivo dedicado o en la nube, y
la mayoría de los data warehouses han agregado capacidades de análisis y
herramientas de visualización y presentación de datos. Todo lo anterior hace que
los reportes provenientes de este data warehouse se vean enriquecidos debido a la
diversidad de las fuentes. Un ejemplo, en lugar de solo tener información
proveniente de marketing, tendremos información proveniente de producción,
marketing, ventas, business Partners y más, haciendo posible la detección de
patrones, tendencias e insights que nos ayuden a tomar mejores decisiones de
negocio.

ARQUITECTURA

La arquitectura del Data Warehouse consta de tres capas, definidas como Data
Modeling & Design, más una de capa destinada al acceso de datos.

Staging

Consiste en una copia directa de los datos en bruto de los sistemas fuentes (Source
Systems) En esta capa no se aplica ningún tipo de transformación de datos ni reglas
de negocio. Cada sistema fuente se almacena en un esquema diferente dentro de
la capa de Staging.

Adicionalmente, en esta capa también se encuentran almacenados los datos


maestros (Masterdata). Esta capa puede contener datos de procesos destinados a
la calidad de dato que posteriormente pueden ser exportados en la herramienta de
Business Intelligence para aplicar correcciones.

3
Core

En esta capa se realiza la integración de datos. Aquí es donde se definen los


conceptos de negocio. Los datos no son volátiles y cada cambio en el sistema fuente
se ve reflejado en la capa Core manteniendo el histórico de los mismos.

En esta capa se deben definir cuáles serán las Claves únicas de negocio para su
posterior relación entre conceptos (por ejemplo, identificador único de cliente o de
producto, transversal a toda la compañía). No se aplica ninguna regla de negocio,
únicamente se limpian, transforman e integran los datos para enriquecer a la
siguiente capa de áreas temáticas.

Data Mart

En esta capa se almacenan todos los cubos y dimensiones de las diferentes áreas
temáticas. Estos datos serán explotados posteriormente por el sistema de reporting.
Aquí es donde se aplican las reglas de negocio, ya que en función del área temática
éstas pueden variar.

La granularidad de los datos puede cambiar, ya que en esta capa se suelen realizar
los cálculos y agregaciones para que el sistema de reporting sea capaz de presentar
los datos de forma eficaz.

Access

Esta capa actúa como interfaz entre el Data Warehouse y el sistema de reporting u
otras aplicaciones externas de visualización y análisis de datos. Cada unidad de
negocio tendrá asociado un esquema que tendrá permisos para ver los datos
asociados de la unidad de negocio.

Para que todo esto sistema funcione correctamente, es fundamental tener


implementados mecanismos para los despliegues entre entornos y administración

4
de procesos de carga (Data Storage & Operation). Esta parte nos permite
promocionar los cambios en el código a los diferentes entornos minimizando
errores.

Los procesos de carga deben ser monitorizados para asegurar que los datos han
sido actualizados correctamente. Los metadatos nos ayudarán a realizar estas
tareas de auditoria entre otras como detección de malos rendimientos en las cargas,
calidad del desarrollo, etc (Saldaña, 2017).

OPERACIONES

Entre las operaciones que comúnmente se desarrollan en un data warehouse se


representan las siguientes: los sistemas operacionales, constituyen la fuente
principal de datos, se estructuran por lo general en bases de datos
relacionales; extracción, transformación y carga de datos, operaciones que
permiten extraer y manipular los datos desde diversos sistemas operacionales para
luego limpiarlos, eliminar inconsistencia, transformarlos y cargarlos en el data
warehouse; creación de los metadatos, que constituyen los datos sobre los datos,
cuenta con los directorios, catálogos de fácil consulta por los usuarios
finales; acceso de usuario final, garantiza el acceso del usuario final mediante
interfaces gráficas que le permiten generar reportes, hacer consultas, generar
reportes mediante el OLAP (procesamiento analítico en línea) de acuerdo con los
requerimientos del usuario; plataforma del data warehouse, plataforma donde
reside el data warehouse y que por lo regular es un servidor de base de datos
relacionales, de acuerdo con el volumen puede llegar a requerir una batería de
servidores; datos externos, no siempre son requeridos, depende de la magnitud y
volumen de los datos, sirven de complemento a los datos provenientes del sistema
operacional.

A continuación, se muestra el conjunto de operaciones que se integran en el diseño


del data warehouse, un servidor en el que se hospeda la base de datos relacional

5
con las estructuras antes descritas gestionada con Postgresql. En ella se
almacenan los datos provenientes del sistema de cuestionarios de instituciones,
recursos humanos y proyectos de investigación, alimentados por la red de
instituciones de los países participantes en el proyecto. Mediante el procedimiento
de extraer, transformar y cargar se depuran y sintetizan los datos que son incluidos
en el data warehouse y se crean los metadatos. Finalmente se actualiza en forma
masiva el data warehouse, residente en un servidor UNIX, para ser consultada por
los usuarios finales. No está representado en estas operaciones el acceso a datos
externo debido a que, por el momento, este diseño no tiene prevista la integración
de datos provenientes de fuentes externas con los del sistema operacional
(Calderón, 2018).

Ilustración 1: Operaciones del data warehouse

PROCESOS QUE LA CONFORMAN

"Un Data Warehouse no se puede comprar, se tiene que construir". Como hemos
mencionado con anterioridad, la construcción e implantación de un Data Warehouse
es un proceso evolutivo.
Este proceso se tiene que apoyar en una metodología específica para este tipo de
procesos, si bien es más importante que la elección de la mejor de las metodologías,
el realizar un control para asegurar el seguimiento de la misma.

6
En las fases que se establezcan en el alcance del proyecto es fundamental el incluir
una fase de formación en la herramienta utilizada para un máximo aprovechamiento
de la aplicación. El seguir los pasos de la metodología y el comenzar el Data
Warehouse por un área específica de la empresa, nos permitirá obtener resultados
tangibles en un corto espacio de tiempo.

Planteamos aquí la metodología propuesta por SAS Institute: la "Rapid


Warehousing Methodology". Dicha metodología es iterativa, y está basada en el
desarrollo incremental del proyecto de Data Warehouse dividido en cinco fases:

Ilustración 2: Rapid Warehousing Methodology

• Definición de los objetivos.


• Definición de los requerimientos de información.
• Diseño y modelización.
• Implementación.
• Revisión (Wilkinson, 2016).

7
Definición de los objetivos

Tal como sucede en todo tipo de proyectos, sobre todo si involucran técnicas
novedosas como son las relativas al Data Warehouse, es analizar las necesidades
y hacer comprender las ventajas que este sistema puede reportar.

Es por ello por lo que nos remitimos al apartado de esta guía de Análisis de las
necesidades del comprador. Será en este punto, en donde detallaremos los pasos
a seguir en un proyecto de este tipo, en donde el usuario va a jugar un papel tan
destacado.

Diseño y modelización

Los requerimientos de información identificados durante la anterior fase


proporcionarán las bases para realizar el diseño y la modelización del Data
Warehouse.

En esta fase se identificarán las fuentes de los datos (sistema operacional, fuentes
externas) y las transformaciones necesarias para, a partir de dichas fuentes, obtener
el modelo lógico de datos del Data Warehouse. Este modelo estará formado por
entidades y relaciones que permitirán resolver las necesidades de negocio de la
organización.

El modelo lógico se traducirá posteriormente en el modelo físico de datos que se


almacenará en el Data Warehouse y que definirá la arquitectura de almacenamiento
del Data Warehouse adaptándose al tipo de explotación que se realice del mismo.

La mayor parte estas definiciones de los datos del Data Warehouse estarán
almacenadas en los metadatos y formarán parte del mismo.

8
Implementación

La implantación de un Data Warehouse lleva implícitos los siguientes pasos:

• Extracción de los datos del sistema operacional y transformación de los


mismos.
• Carga de los datos validados en el Data Warehouse. Esta carga deberá ser
planificada con una periodicidad que se adaptará a las necesidades de
refresco detectadas durante las fases de diseño del nuevo sistema.
• Explotación del Data Warehouse mediante diversas técnicas dependiendo
del tipo de aplicación que se de a los datos:
• Query & Reporting
• On-line analytical processing (OLAP)
• Executive Information System (EIS) ó Información de gestión
• Decision Support Systems (DSS)
• Visualización de la información
• Data Mining ó Minería de Datos, etc.

La información necesaria para mantener el control sobre los datos se almacena en


los metadatos técnicos (cuando describen las características físicas de los datos) y
de negocio (cuando describen cómo se usan esos datos). Dichos metadatos
deberán ser accesibles por los usuarios finales que permitirán en todo momento
tanto al usuario, como al administrador que deberá además tener la facultad de
modificarlos según varíen las necesidades de información.

Revisión

La construcción del Data Warehouse no finaliza con la implantación del mismo, sino
que es una tarea iterativa en la que se trata de incrementar su alcance aprendiendo
de las experiencias anteriores.

9
Después de implantarse, debería realizarse una revisión del Data Warehouse
planteando preguntas que permitan, después de los seis o nueve meses posteriores
a su puesta en marcha, definir cuáles serían los aspectos a mejorar o potenciar en
función de la utilización que se haga del nuevo sistema (IBM, Implementation Data
Warehouses, 2019).

HERRAMIENTAS DE DISEÑO

Los sistemas de apoyo a la toma de decisiones tienen una larga tradición en el


mundo de los negocios. Ya desde la década de 1960, las empresas utilizan todo
tipo de métodos analíticos que permiten obtener datos útiles con el objetivo
de respaldar a la dirección ejecutiva en la planificación estratégica de los procesos
de negocio con informes, modelos y pronósticos basados en datos.

Estos sistemas de información analíticos con funcionalidades de evaluación pueden


clasificarse como sistemas de información gerencial (Management Information
Systems, MIS), sistemas de soporte a decisiones o DSS (Decision Support
Systems) o sistemas de información ejecutiva (Executive Information
Systems, EIS), los cuales apenas se diferencian entre sí y desde los 1990 se
engloban bajo el denominador común de Business intelligence (BI) o inteligencia de
negocios tanto en la práctica empresarial como en la comercialización de sus
productos.

El archivado en almacenes de datos ya no es un lujo exclusivo de las grandes


corporaciones, pues las pequeñas y medianas empresas empiezan a descubrir el
potencial derivado de la optimización de los procesos mediante el análisis de
grandes volúmenes de datos. Al lado de suites profesionales de Business
Intelligence y soluciones completas de DWH han ido surgiendo en los últimos años
productos más asequibles con los que iniciarse, servicios en la nube más flexibles
y aplicaciones de código abierto más ajustadas a las necesidades de la pyme.

10
El software comercial de BI con cierto renombre suele distinguirse por una elevada
fiabilidad, una gama de funciones acorde con los Service Level Agreements (SLA)
y una atención al cliente de gran calidad, pero también por el coste de su adquisición
o de su utilización como servicio en la nube (Henz, 2018).

La siguiente lista enumera los productos de pago disponibles en la actualidad de


fabricantes de primera línea en orden alfabético:

Ilustración 3: Tabla 1

11
GLOSARIO

Data warehouses: es una colección de datos orientada a un determinado ámbito

IA: inteligencia Artificial.

IE: Inteligencia Empresarial.

CONCLUSIONES

El Data Warehouse significa una ventaja competitiva ya que aporta datos fiables y
de calidad, lo que se traducirá en mejores decisiones por parte de la empresa.
También unifica todas las bases de datos en un mismo lugar y crea unos estándares
para análisis posteriores.

BIBLIOGRAFÍA

Calderón, D. A. (2018). Data Warehouses.

Henz, S. (2018). Computer technology.

IBM. (2019). Implementation Data Warehouses.

IBM. (01 de 12 de 2021). IBM . Obtenido de https://www.ibm.com/mx-


es/analytics/data-warehouse

Saldaña, M. Á. (2017). Data Warehuses.

Wilkinson, H. (2016). Computer World.

12

También podría gustarte