Está en la página 1de 11

Tecnológico Nacional de México, Campus

Puerto Peñasco.

Investigación: DATAWAREHOUSE

Base de datos distribuida

ISC-7Mo Matutino

Alumno:
Luis Octavio Armenta Gonzalez

Docente:
Diana Elizabeth López Chacón

23/11/2022

ÍNDICE
INTRODUCCIÓN..................................................................................................3

DATAWAREHOUSE............................................................................................4

¿Qué es DATAWAREHOUSE?.......................................................................4

¿Cómo funciona?............................................................................................4

Consideraciones de diseño del DATAWAREHOUSE..................................4

El modelo de datos......................................................................................4

Las transformaciones.................................................................................5

Creando artefactos de relaciones.............................................................7

Fusión de tablas..........................................................................................7

Herramientas para implementar un Datawarehouse...................................8

Eclipse BIRT Project...................................................................................8

Pentaho BI....................................................................................................8

¿Qué es OLAP?...............................................................................................9

CONCLUSIÓN....................................................................................................10

REFERENCIAS:.................................................................................................11
INTRODUCCIÓN

A continuación, se dará a conocer el resultado de la búsqueda de lo


previamente visto en el índice. La investigación ha sido realizada con el
objetivo de enriquecer nuestro conocimiento y para que posiblemente podamos
ponerlo en práctica en un futuro. Se presentará la información mediante texto e
ilustraciones.
DATAWAREHOUSE

¿Qué es DATAWAREHOUSE?
Un datawarehouse es un repositorio unificado para todos los datos que
recogen los diversos sistemas de una empresa. El repositorio puede ser físico
o lógico y hace hincapié en la captura de datos de diversas fuentes sobre todo
para fines analíticos y de acceso.

¿Cómo funciona?
un datawarehouse almacena datos consolidados de diversas fuentes o
sistemas de la empresa. Se trata de datos estructurados, que tiene como
objetivo principal ser precisos y de alta calidad para de esta forma poder dar
soporte a la toma de decisiones de la empresa.

Consideraciones de diseño del DATAWAREHOUSE

El modelo de datos

Se construye a partir del modelo de datos corporativo. Sin embargo, dado que
las técnicas clásicas de modelado de datos no hacen distinciones entre el
entorno operacional y el de soporte a decisiones, hay ciertas transformaciones
que deben realizarse para crear el modelo de datos del DW a partir del modelo
de datos corporativo. Es evidente que, para poder utilizar el modelo de datos
corporativo, éste debe estar construido y listo para utilizar. En particular, el
modelo de datos corporativo ha de identificar y estructurar, por lo menos, las
siguientes áreas:
 las áreas principales de la empresa
 las relaciones entre las áreas
 un diagrama entidad-relación (ERD)

para cada área principal:

Claves
 atributos
 subtipos
 conectores de un área a la siguiente
 agrupaciones de atributos

El modelo de datos corporativo puede incluir también información acerca de los


procesos (descomposición funcional, diagramas de flujo de datos,
pseudocódigo, etc.). Esta información siempre es interesante, pero es aplicable
al entorno operacional y no al DW. El modelo de datos corporativo suele estar
descrito a alto nivel y a medio nivel. Este último contiene claves, atributos,
subtipos, conectores, etc. No todos los modelos de datos ni todas las áreas
tienen el mismo nivel de detalle, aunque esta carencia no es un inconveniente
serio porque el DW se irá diseñando en fases sucesivas.

Las transformaciones

Suponiendo que tenemos un modelo de datos corporativo del cual partir (y si


no existe o no se puede utilizar, convendría investigar la oportunidad de utilizar
como punto de partida un modelo de datos genérico, adquirido en el mercado),
el proceso de transformación hacia el modelo de datos del DW puede
comenzar. Las transformaciones más inmediatas que nos permitirán diseñar el
modelo de datos del DW, son:

 eliminar los datos puramente operacionales.


 añadir un elemento de tiempo a la estructura de las claves.
 añadir datos derivados.
 transformar las relaciones de datos en artefactos de datos.
 acomodar los diferentes niveles de detalle de la información.
 fusión de datos de diferentes tablas.
 creación de ocurrencias de datos.
 agrupación de datos, en función de su estabilidad.

La decisión de eliminar los datos puramente operacionales raramente es


evidente. La decisión se centra siempre alrededor de la pregunta "¿qué
probabilidad hay de que este dato se utilice para la toma de decisiones?".
Desafortunadamente, con una fértil imaginación se podría llegar a la conclusión
de que TODO sirve para la toma de decisiones. Habría que preguntarse, de
una manera más sensata, "¿qué probabilidad RAZONABLE hay de que este
dato pueda utilizarse para la toma de decisiones?".

La segunda transformación que debe sufrir el modelo de datos corporativo es


añadir un elemento de tiempo a la clave del DW, si es que aún no lo tiene. El
tiempo es un elemento extremadamente importante dentro del DW.

La siguiente transformación para aplicar al modelo de datos corporativo para


construir nuestro modelo de datos del DW es la de añadir datos derivados de
otros, cuando sea apropiado.

Resulta apropiado añadir datos derivados cuando éstos:

- se acceden con frecuencia y

- se calculan una sola vez.

Añadir datos derivados al DW, aparte de reducir la cantidad de proceso


requerida para acceder a los datos, consigue otro efecto beneficioso: una vez
que los datos están correctamente calculados, nadie puede utilizar un algoritmo
diferente y erróneo para calcular los datos, con lo que la credibilidad de éstos
aumenta.

Por otra parte, de nuevo hay que recurrir al sentido común y preguntarse hasta
qué punto son convenientes cada uno de los datos derivados, para evitar que
el DW pueda crecer incontroladamente.

Creando artefactos de relaciones

Un artefacto de una relación es simplemente la parte de la relación que es


obvia y tangible en el momento en que la "instantánea" de los datos entra a
formar parte del DW. Dicho de otra manera, cuando tomamos una instantánea
de los datos de los sistemas operacionales para incorporarlos al DW, la parte
de la relación entre los datos de dos tablas es útil y obvia.

Un artefacto puede incluir claves extranjeras (foreing keys) y otros datos


relevantes. O la instantánea puede incluir sólo datos relevantes y no claves
extranjeras.

Fusión de tablas

La siguiente transformación para considerar es la fusión de tablas corporativas


en una tabla del DW.

Las condiciones bajo las cuales una fusión de tablas tiene sentido son:

- las tablas comparten una clave común,

- los datos de las diferentes tablas se utilizan juntos con frecuencia, y

- el comportamiento de las inserciones en las tablas es similar.

Si cualquiera de las condiciones anteriores no se cumple, NO tiene sentido


fusionar las tablas
Herramientas para implementar un Datawarehouse

Eclipse BIRT Project

Este es un proyecto de software de código abierto que proporciona


capacidades de creación de informes y de inteligencia de negocio para clientes
pesados y aplicaciones web, especialmente aquellas basadas en Java y Java
EE. BIRT es un proyecto de software de alto nivel dentro de la Fundación
Eclipse.

Pentaho BI

Pentaho es una suite de software orientada a la solución y centrada en


procesos que incluye los principales componentes requeridos para implementar
soluciones basadas en procesos. Las soluciones que Pentaho pretende ofrecer
se componen fundamentalmente de una infraestructura de herramientas de
análisis e informes integrado con un motor de flujo de trabajo de procesos de
negocio. La plataforma será capaz de ejecutar las reglas de negocio
necesarias, expresadas en forma de procesos y actividades además de
presentar y entregar la información adecuada en el momento adecuado.
¿Qué es OLAP?

El procesamiento analítico en línea (OLAP) es una tecnología que organiza


grandes bases de datos empresariales y proporciona análisis complejo. Se
puede utilizar para realizar consultas analíticas complejas sin afectar
negativamente los sistemas transaccionales.
CONCLUSIÓN

En resumen, Datawarehouse es una estructura de almacenamiento de


información que les permite a las empresas organizar, comprender y manejar
sus datos para tomar decisiones estratégicas.
REFERENCIAS:
PowerData (????) Recuperado el 23 de noviembre del 2022 del siguiente link:
Data Warehouse: todo lo que necesitas saber sobre almacenamiento de datos
(powerdata.es)
PowerData (????) Recuperado el 23 de noviembre del 2022 del siguiente link:
Data Warehouse: todo lo que necesitas saber sobre almacenamiento de datos
(powerdata.es)
Alejandro Salcedo (1995) Recuperado el 23 de noviembre del 2022 del
siguiente link:
Consideraciones de diseño del data warehouse | | ComputerWorld
SOFTPEI | Ingeniería y Sistemas (2016) Recuperado el 23 de noviembre del
2022 del siguiente link:
Herramientas para implementar un Data Warehouse | SOFTPEI | Ingeniería y
Sistemas

También podría gustarte