2.
Concepto de Data Mart o Data Warehouse
Índice
2.1 Utilidad
2.2 Componentes
2.1 Utilidad
DATA WAREHOUSE significa el almacenamiento de información homogénea y fiable, en una estructura
basada en la consulta y el tratamiento jerarquizado de la misma y en un entorno diferenciado de los sistemas
operacionales.
Se caracteriza por ser:
Integrado Los datos almacenados en el Data Warehouse deben integrarse en una
estructura consistente, por lo que se deben eliminar las inconsistencias existentes entre
los diversos sistemas operacionales. La información suele estructurarse también en
distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.
Temático Solo los datos necesarios para el proceso de
generación del conocimiento del negocio se integran desde el
entorno operacional. Los datos se organizan por temas para facilitar
su acceso y entendimiento por parte de los usuarios finales.
Histórico El tiempo es parte implícita de la información contenida en un Data Warehouse. En los
sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento
presente. Por el contrario, la información almacenada en el Data Warehouse sirve, entre otras cosas,
para realizar análisis de tendencias.
No volátil El almacén de información de un Data Warehouse existe para ser leído y no modificado.
La información es por tanto permanente.
Otra característica del Data Warehouse es que contiene información relativa de los datos (metadatos).
Los metadatos permiten mantener información de la procedencia de la información, la periodicidad de
refresco, su fiabilidad, forma de cálculo, etc., relativa a los datos de nuestro almacén.
Los objetivos que deben cumplir los metadatos, según el colectivo al que va dirigido, serían:
Soportar al usuario final, ayudándole a acceder al Data Warehouse con su propio lenguaje de negocio,
indicando qué información hay y qué significado tiene. Ayudar a construir consultas, informes y
análisis, mediante herramientas de navegación.
Soportar a los responsables técnicos del Data Warehouse en aspectos de auditoría, gestión de la
información histórica, administración del Data Warehouse, elaboración de programas de extracción de
la información, especificación de las interfaces para la realimentación a los sistemas operacionales de
los resultados obtenidos, etc.
Diferencias de un Data Warehouse con un sistema tradicional
SISTEMA TRADICIONAL DATA WAREHOUSE
Predomina la actualización. Predomina la consulta.
La actividad más importante es de tipo operativo La actividad más importante es el análisis y la
(día a día). decisión estratégica.
Predomina el proceso puntual. Predomina el proceso masivo.
Mayor importancia a la estabilidad. Mayor importancia al dinamismo.
Datos en general desagregados. Datos en distintos niveles de detalle y agregación
Importancia del dato actual. Importancia del dato histórico.
Importancia del tiempo de respuesta de la Importancia de la respuesta masiva.
transacción instantánea.
Estructura relacional. Visión multidimensional.
Usuarios de perfiles medios o bajos. Usuarios de perfiles altos.
Explotación de la información relacionada con la Explotación de toda la información interna y externa
operativa de cada aplicación. relacionada con el negocio.
¿Por qué un datawarehouse? Ventajas de un datawarehouse
1. Proporciona información clave para la toma de decisiones empresariales.
2. Mejora la calidad de las decisiones tomadas.
3. Especialmente útil para el medio y largo plazo.
4. Son sistemas relativamente sencillos de instalar si las fuentes de datos y los objetivos están claros.
5. Muy útiles para el almacenamiento de análisis y consultas de históricos.
6. Proporciona un gran poder de procesamiento de información.
7. Permite una mayor flexibilidad y rapidez en el acceso a la información.
8. Facilita la toma de decisiones en los negocios.
9. Las empresas obtienen un aumento de la productividad.
10. Proporciona una comunicación fiable entre todos los departamentos de la empresa.
11. Mejora las relaciones con los proveedores y los clientes.
12. Permite conocer qué está pasando en el negocio, es decir, estar siempre enterado de los buenos y
malos resultados.
13. Transforma los datos en información y la información en conocimiento.
14. Permite hacer planes de forma más efectiva.
15. Reduce los tiempos de respuesta y los costes de operación.
Inconvenientes
No es muy útil para la toma de decisiones en tiempo real debido al largo tiempo de procesamiento que
puede requerir. En cualquier caso, la tendencia de los productos actuales (junto con los avances del
hardware) es la de solventar este problema convirtiendo la desventaja en una ventaja.
Requiere de continua limpieza, transformación e integración de datos.
Mantenimiento.
En un proceso de implantación puede encontrarse dificultades ante los diferentes objetivos que
pretende una organización.
Una vez implementado puede ser complicado añadir nuevas fuentes de datos.
Requieren una revisión del modelo de datos, objetos, transacciones y, además, del almacenamiento.
Tienen un diseño complejo y multidisciplinar.
Requieren una reestructuración de los sistemas operacionales.
Tienen un alto coste.
Requieren sistemas, aplicaciones y almacenamiento específico.
2.2 Componentes
A la hora de construir un Data Warehouse hay que
tener en cuenta los siguientes componentes:
1. Hardware
A la hora de implantar Data Warehouse es fundamental
contar con una infraestructura hardware que responda a
las necesidades analíticas avanzadas de los usuarios.
Por eso, a la hora de evaluar uno u otro hardware es
importante fijarse en dos características principales:
A este tipo de sistemas suelen acceder pocos usuarios con unas necesidades muy grandes de
información, a diferencia de los sistemas operacionales, con muchos usuarios y necesidades
puntuales de información. Debido a la flexibilidad requerida a la hora de hacer consultas complejas e
imprevistas y al gran tamaño de información manejada, es necesario que el hardware sea potente.
Por otro lado, debido a que estos sistemas suelen comenzar con una funcionalidad limitada, que se
va expandiendo con el tiempo, es necesario que los sistemas sean escalables para dar soporte a las
necesidades crecientes de equipamiento. En este sentido, será conveniente el optar por una
arquitectura abierta.
2. Software de almacenamiento
El sistema que gestiona el almacenamiento de la información (Sistema de Gestión de Base de Datos o
SGBD) es otro elemento clave en un Data Warehouse. Independientemente de que la información
almacenada en el Data Warehouse se pueda analizar mediante visualización multidimensional, el SGBD
puede estar realizado utilizando tecnología de bases de datos relacionales o multidimensionales.
Las bases de datos relacionales, en muchas ocasiones, no son capaces de satisfacer las necesidades de
información. Las necesidades de información suelen atender a consultas multidimensionales, es por ello
que estas últimas parecen más adecuadas.
3. Software de extracción y manipulación de datos
Para la extracción y manipulación son necesarias algunas herramientas:
Control de la extracción de los datos y su automatización, disminuyendo el tiempo empleado en el
descubrimiento de procesos no documentados, minimizando el margen de error y permitiendo mayor
flexibilidad.
Acceso a diferentes tecnologías, haciendo un uso efectivo del hardware, software, datos y recursos
humanos existentes.
Proporcionar la gestión integrada del Data Warehouse y los Data Marts existentes.
Uso de la arquitectura de metadatos, facilitando la definición de los objetos de negocio y las reglas de
consolidación.
Acceso a una gran variedad de fuentes de datos diferentes.
Manejo de excepciones.
Planificación, logs e interfaces a schedulers de terceros.
Interfaz independiente de hardware.
Soporte en la explotación del Data Warehouse.
4. Herramientas Middleware
Las herramientas Middleware deben ser escalables siendo capaces de crecer conforme crece el
Data Warehouse, sin problemas de volúmenes. También deben ser flexibles y robustas, sin
olvidarse de proporcionar un rendimiento adecuado. Estarán abiertas a todo tipo de entornos de
almacenamiento de datos.
Con el uso de estas herramientas de Middleware lograremos:
Maximizar los recursos ejecutando las aplicaciones en la plataforma más adecuada.
Integrar los datos y aplicaciones existentes en una plataforma distribuida.
Automatizar la distribución de datos y aplicaciones desde un sistema centralizado.
Reducir tráfico en la red, balanceando los niveles de cliente servidor (más o menos datos en local, más
o menos proceso en local).
Explotar las capacidades de sistemas remotos sin tener que aprender múltiples entornos operativos.
Asegurar la escalabilidad del sistema.
Desarrollar aplicaciones en local y explotarlas en el servidor.
¡Lo Has llegado al final de la unidad
conseguiste!