Está en la página 1de 18

MINICURSO

DATA WAREHOUSING

Por qu un Data Warehouse?
Mercado de Data Warehouse
Ventajas del Data Warehouse
Arquitectura del Data Warehouse
Implementacin del Data Warehouse
Enfoques
Integrantes
Metodologa
Requerimientos para el motor de bases de datos
Herramientas Multidimensionales
Qu es el modelaje dimensional? (con ejemplo de aplicacin)
MERCADO DEL DATA WAREHOUSE
Es un mercado altamente competitivo, donde el comportamiento, donde el
comportamiento de los consumidores flucta, cada vez es ms crtico entregar
el producto correcto, en el momento correcto y, obviamente, antes que la
competencia. Es por ello que, las compaas deben tener un conocimiento
detallado de sus clientes, los mercados existentes y potenciales, y el entorno
en el que se desarrolla su propio negocio para poder tomar decisiones
acertadas.
Actualmente, las compaas no poseen demasiada informacin sobre sus
clientes, productos o mercados. Sin embargo, estos datos existen pero
generalmente estn dispersos en varias aplicaciones y en sistemas de varios
formatos que dificultan su acceso e interpretacin. Cmo hacen las compaas
para obtener informacin en medio de esta abundancia de datos?.
Como herramienta para lograr tal objetivo, las empresas comienzan a visualizar
una estrategia de rightsizing, a travs de la construccin de Data Warehouses,
transformando los datos almacenados en sistemas de decisin. Y realizan esta
transformacin en un marco tecnolgico abierto y flexible que permita
satisfacer las necesidades de hoy pero permita crecer para tener en cuenta
las necesidades de maana.
Un informe reciente del Meta Group muestra el 90-95 % de los clientes top
estaran siguiendo una estrategia de Data Warehousing como enfoque
significativo de su estrategia de rightsizing.



VENTAJAS DEL DATA WAREHOUSE

Un Data Warehouse est diseado para consolidar y manejar distintos
formatos de datos de la empresa, ya sea provenientes de sistemas
operacionales, OLTP o de aplicaciones departamentales, de tal manera que las
compaas puedan entender mejor las necesidades de sus clientes.



Una vez implementado, el Data Warehouse permite a los usuarios finales
acceder a una vasta gama de datos operacionales en forma integrada para
poder tomar mejores decisiones estratgicas de negocio.
Por ejemplo, muchos Bancos estn construyendo Data Warehouses y Data
Marts (Data Warehouses ms tcticos y ms pequeos diseados para
satisfacer necesidades departamentales) con el objetivo de mejorar los
servicios a sus clientes.
Histricamente, la informacin de los Bancos estaba separada de acuerdo a la
funcionalidad de cada rea, por ejemplo: tarjetas de crdito, cuentas
corrientes, cajas de ahorro, etc. Por lo tanto, los datos acerca de cada cliente
individual estaban diseminados a lo largo de los diferentes sistemas de base de
datos, a menudo tambin sobre diferentes plataformas de hardware. Esto
significa que proveer un servicio al cliente en forma eficiente es una tarea
difcil ya que los datos que describe al cliente en forma completa estn
fragmentados entre estas diferentes fuentes de informacin.




Un Data Warehouse cambia todo esto, integrando los datos de distintos
sistemas funcionales en una visin consolidada del negocio. Continuando con el
ejemplo de los Bancos, los empleados no solamente podrn comprender las
actividades de sus clientes, sino que tambin podrn fcilmente analizar la
cartera de sus clientes desde una perspectiva histrica y adems modelar
vistas demogrficas con los hbitos bancarios.
Una vez que el Data Warehouse est armado, ellos pueden personalizar sus
ventas y programas de marketing para ofrecer servicios a sus usuarios con ms
valor agregado de servicios. Tambin pueden analizar la ganancia de cada
servicio, focalizarse en nuevos y atractivos clientes, crear clientes cada vez,
ms leales y reducir costos operacionales.

ARQUITECTURA DEL DATA WAREHOUSE

Hay varios componentes necesarios para una implementacin exitosa. Los seis
componentes clave son:
Modelizacin de los datos desde las fuentes a la base de datos de destino
Software para manejar el mapping, transformacin y extraccin de datos
Sistema de Base de Datos Relacionales Paralela
Hardware abierto y escalable
Herramientas de acceso a los datos
Integracin de Sistemas

Modelizacin de datos
Es el proceso analtico que involucra seleccionar los datos pertinentes desde
las fuentes de base de datos operacionales y modelarlas en el Data Warehouse.
El conocimiento de los sistemas operacionales es crtico en el proceso de
modelado. Esta integracin de datos consiste de estandarizacin de cdigos,
convenciones para los nombres, medidas, etc. los cuales han sido acumulados en
diversas bases de datos y aplicaciones operacionales generalmente durante
varios aos.

Software automtico para manejar el Data Warehouse
Estas herramientas automatizan la transformacin de los datos en el Data
Warehouse mediante:
Mapeo, extraccin y transformacin de datos.
Generacin de Cdigo.
Generacin y manejo de meta datos y
Mantenimiento del Data Warehouse.
El software para conversin y mantenimiento del Data Warehouse se obtiene
mediante proveedores de software. Estas herramientas, mediante menes,
extraen la informacin de las distintas fuentes de datos y generan el cdigo
necesario para integrar los datos operacionales en informacin lista para poder
tomar decisiones.
Histricamente, la conversin e integracin de los datos desde las fuentes
operacionales se hizo manualmente, mediante la codificacin de programas
destinados especficamente para eso, pero la posterior falta de documentacin
y el gran costo de mantenimiento, hizo que sea cada vez se haga ms necesario
optar por motores de carga automticos, pero para casos particulares no son
aplicables.
Sistemas de Base de Datos Relacional Paralela (RDBMS)
Es el corazn del Data Warehouse. El RDBMS debe ser capaz de manejar
grandes volmenes de datos manteniendo un acceso fcil y rpido a los mismos.
La habilidad para procesar en paralelo las consultas, carga e indexacin de
datos es esencial para incrementar la performance.
Hardware Abierto y Escalable
Es esencial para acompaar los continuos cambios de los requerimientos del
negocio los cuales involucran generalmente nuevas demandas. Escalabilidad
significa la posibilidad de agregar recursos adicionales de hardware (CPUs,
discos, memoria, etc.) y usuarios sin afectar la disponibilidad de los datos y
aplicaciones existentes.
Agregar CPUs puede mejorar el poder del sistema pero slo si existe un
software, que est diseado para sacar ventaja de los sistemas de
multiprocesador simtrico (SMP).
Herramientas de Acceso a los datos
Son esenciales para acceder fcilmente a los datos del Data Warehouse ya sea
tanto programadores como usuarios finales. Las herramientas se dividen en
tres categoras:
Aplicaciones desarrolladas
Consultas de usuario final
Sistema de Informacin Ejecutiva
Una herramienta sola no satisface todos los requerimientos del negocio de
Data Warehouse, por esa razn es muy comn encontrar en las organizaciones
una combinacin de stas.
Existe una tcnica que permite modelar una vista multidimensional sobre la
base de datos relacional de tal manera que el usuario final hable en trminos
de negocio en lugar de hacerlo como filas y columnas. Esta es denominada como
procesamiento analtico en lnea (OLAP).
El anlisis multidimensional, permite efectuar tareas conocidas como slice and
dice basadas en tres o ms dimensiones, como producto, perodo de tiempo y
geografa. Algunas de las consultas tipo en este esquema son: Cul es la
ganancia neta de los productos XY de la regin norte del pas en el primer
trimestre del ao? o Cules son los 10 productos ms vendidos en la regin A?
Aunque la mayora de las implementaciones de Data Warehouse estn basados
en un modelo centralizado usando solamente datos estructurados, actualmente
la arquitectura del Data Warehouse est tendiendo a incluir datos
descentralizados mediante repositorios ms pequeos orientados a anlisis
especficos o accesos departamentales, llamados Data Marts.
Integracin de Sistemas
Es otro de los elementos clave para la implementacin de una solucin Data
Warehouse depende del diseo ptimo de una solucin fuertemente integrada,
por eso el planeamiento debera no slo incluir el software y el hardware, sino
tambin el anlisis y modelizacin de los datos para el Data Warehouse.
Se debe lograr un alto grado de compromiso de todas las partes involucradas
en el proyecto en todos los niveles, desde usuarios finales hasta proveedores
de hardware para proveer una solucin nica.





ENFOQUES

Realizar un proyecto de Data Warehousing requiere tener bien claro cuales
son los objetivos y las espectativas de la organizacin a corto, mediano y largo
plazo con respecto al proyecto que se desea encarar, dado que existen dos
maneras particulares de darle comienzo que condicionarn inevitablemente los
resultados finales a obtener:
Estos enfoques son:
Construir un Data Warehouse teniendo presente el modelo de decisiones de
toda la compaa, lo que determinara como objetivo inicial el Data
Warehouse corporativo.
Construir el Data Warehouse con un modelo que contemple las necesidades
de un rea determinada comercial, marketing, recursos humanos, etc.- e ir
sumando las necesidades de las diversas reas en sucesivas etapas, las
cuales finalmente darn lugar al Data Warehouse corporativo.



De acuerdo a la experiencia en la implementacin real de diversos proyectos de
Data Warehousing, un data warehouse debe ser bien planificado y su
implementacin difcilmente pueda ser realizada en unas pocas semanas. Los
conocimientos necesarios, las potenciales complejidades de trabajar con varias
tecnologas nuevas en forma simultnea, y la cantidad de datos que tienen que
ser considerados no deben ser subestimados.
Para ser exitoso, las compaas generalmente seleccionan un rea especfica
para iniciar un piloto de Data Warehouse y de esta manera pueden
corresponder los factores de xitos con los costos iniciales de implementacin.
Cuando la relacin costo/beneficio se estabiliza existe reduccin del impacto
de la inversin- y las ventajas empiezan a ser apreciadas por el resto de la
organizacin, la implementacin del Data Warehouse corporativo suele una
tarea mucho ms sencilla.
Es por ello que, para lograr el xito deseado, se recomienda el desarrollo del
proyecto en distintas fases o etapas, definiendo en primera instancia un
proyecto piloto que permita tomar experiencia en la definicin de la
arquitectura, el modelaje del nuevo repositorio y la utilizacin de las
herramientas de explotacin.

INTEGRANTES

Para implementar exitosamente el proyecto piloto de Data Warehousing y
cumplir en tiempo y forma cada una de las etapas, es necesario que diferentes
perfiles de persona se involucren y se comprometan con el xito del mismo, de
manera que la unin de las diferentes iniciativas individuales den por resultado
las ventajas de una iniciativa grupal traducida en el grupo del proyecto.
El grupo del proyecto debe estar compuesto por los siguientes perfiles:
Consultor funcional, el cual debe aportar su experiencia en el relevamiento
de necesidades de los usuarios del Data Warehouse de manera que las
mismas puedan ser traducidas a consultas y anlisis tpicos a implementarse
con las herramientas de anlisis de informacin.
Consultor tecnolgico, cuya misin es aplicar sus conocimientos de
tecnologa de software de base y herramientas de explotacin acorde a los
requerimientos funcionales y a las especificaciones de volumen de
informacin a procesar en el cliente.
Lder de proyectos del cliente, quien debe conocer a la organizacin desde
el punto de vista funcional y tcnico, involucrando este ltimo aspecto a los
sistemas operacionales que sern fuente de datos del Data Warehouse.
Este deber proveer adems acceso a l/los usuarios finales que hicieran
falta para concretar el proyecto.
Usuario final, quien debe ser el que caracterice las necesidades
informativas de la organizacin para la toma de decisiones en un rea
especfica y apruebe el resultado final implementado en el Data Warehouse.
Trabajando en forma conjunta, los diferentes perfiles, representados por una
o ms personas cada uno, deben aportar a lograr la solucin final que es el
Proyecto Piloto. Todos juntos, en forma cooperativa, lograrn implementar
exitosamente el Data Warehouse y hacer extensivo este xito a los dems
modelos de la compaa.



METODOLOGIA
Para llevar a cabo el proyecto piloto se propone una metodologa de
implementacin por etapas, cada una de las cuales est compuesta por una
serie de tareas cuya realizacin en los plazos adecuados darn la posibilidad de
seguir adelante.
La metodologa propuesta se traduce en el desarrollo e implementacin de una
serie de tareas, las cuales aplicables en forma iterativa a cada una de las fases
el proyecto piloto es la primera- dar por resultado el Data Warehouse
corporativo.
Dichas etapas son:
1.- Definicin del modelo del Data Warehouse
Consiste en identificar las necesidades y objetivos del Data Warehouse y en la
definicin de un modelo fsico que se pueda implementar como repositorio en la
base de datos.
Esta etapa suele ser crtica en todos los proyectos y puede ser de tiempo
variable dependiendo del conocimiento del cliente del estado de situacin real
y deseado de su compaa con respecto a las necesidades de informacin. El
error que generalmente se comete en este punto es no considerar a los
usuarios del Data Warehouse dentro del equipo de trabajo, y considerar que el
proyecto es de y para el rea de sistemas. As se centra ms la atencin en el
modelo fsico de la base de datos que en el contenido real que tendr la misma.
Esta situacin, si bien no es irreversible en etapas posteriores, puede
comprometer el xito del proyecto, sea en su concrecin total satisfactoria o
en los plazos definidos en su comienzo.
2.- Preparacin Fsica del Ambiente del Data Warehouse.
Existe el mito de que un Data Warehouse es enorme, en cuanto a volumen de
informacin a contener. Y cuando se empieza un proyecto, los diferentes
integrantes llegan a la conclusin de que no lo es. Sea porque se empez por un
proyecto piloto o porque no se considera el potencial de crecimiento de la
compaa. Y es as que se desestima el estudio de evaluacin detallada de
cuales sern las piezas de hardware y software que se utilizarn para el
proyecto.
As, esta etapa supone emplear tcnicas de sizing que permitan predecir cual
ser el volumen esperado en un lapso de tiempo dado, considerando factores
reales (informacin existente versus crecimiento estndar) y factores
subjetivos de ls organizacin en particular (criticidad de la informacin del
Data Warehouse dentro del rea usuaria del mismo), y de esta manera, con los
resultados obtenidos, poder evaluar y definir el hardware y software
adecuados a utilizar en el proyecto de la compaa.
3.- Implementacin del Data Warehouse
Es esa etapa cuando los integrantes del proyecto utilizan la tecnologa
seleccionada para implementar el Data Warehouse, y consiste en la definicin
de las consultas necesarias para los usuarios finales y en el ajuste y
optimizacin de la base de datos para lograr un ptimo tiempo de respuesta.
Esta etapa finaliza con la presentacin a los usuarios finales para corroborar
que las necesidades planteadas en la primer etapa fueron satisfechas, y es
posible que exista una retroalimentacin que permita enriquecer an ms el
modelo.
4.- Puesta en Marcha.
La puesta en marcha del Data Warehouse implica el ajuste de todas las
variables que se vinieron manejando durante el desarrollo del proyecto, tales
como piezas de hardware y software, el modelo del Data Warehouse en s, e
involucra la capacitacin necesaria para que las personas puedan explotar y
mantener correctamente el Data Warehouse.
Si bien durante el lapso del desarrollo del Proyecto Piloto existir una
transferencia tecnolgica que involucra a los participantes del proyecto, el
objetivo de esta etapa se concreta en una capacitacin tecnolgica formal y
orientada tanto a los usuarios finales como a personal del rea de sistemas que
se vean involucrados en la operacin y mantenimiento del Data Warehouse.

REQUERIMIENTOS PARA EL MOTOR DE BASES DE DATOS

El xito del Data Warehouse se puede medir por la cantidad de uso
que el mismo tiene, y cuanto ms grande se volver. Esa es la razn
por la cual se necesita tecnologa de datos escalable, que permita
agregar usuarios o aumentar las necesidades de consulta sin afectar
la disponibilidad de datos existentes.
Los requerimientos tecnolgicos clave para la base de datos de un
Data Warehouse son:
Procesamiento paralelo
Particionamiento de tablas
Carga e indexacin de datos eficiente
Estndares de sistemas abiertos

Procesamiento Paralelo
El procesamiento paralelo consiste en poder responder consultas,
carga e indexacin de datos en forma paralela. Mejora
sustancialmente el rendimiento y la disponibilidad necesaria por los
usuarios finales para sistemas de soporte a la decisin.
Paralelizacin de consultas
La paralelizacin de consultas toma ventaja de los CPUs y ejecuta las
tareas en paralelo muchas veces ms rpido que las arquitecturas
anteriores. A travs de la paralelizacin es posible implementar scans
paralelos, joins y sorts; carga de datos paralela e indexacin paralela.
Cada operacin de base de datos se divide en procesos concurrentes
que aumenta el poder de procesamiento en arquitecturas de hardware
multiprocesadores.
Particionamiento de datos
El particionamiento de datos, tambin llamado fragmentacin, es una
tcnica usada para distribuir tablas muy grandes a lo largo de
mltiples discos de tal manera que las operaciones de Entrada/Salida
se ejecuten en paralelo. El particionamiento permite que un sistema
sea expandido y reconfigurado para soportar almacenamientos ms
grandes sin impactar adversamente en el rendimiento y la
disponibilidad del mismo. Como por naturaleza, el tamao de los Data
Warehouse tiende a crecer continuamente, el particionamiento de
datos a nivel base de datos es crtico.
Algunos de los mtodos usados para el particionamiento son:
Mtodo Round Robin: cada registro ubica en la prxima particin
siguiendo una secuencia establecida.
Mtodo de Hash: donde se aplica un algoritmo a las claves de los
registros para determinar el nmero de particin donde ubicarse.
Mtodo por Expresin: donde cada particin se obtiene por un
subconjunto de datos basados en el valor de su clave.
El particionamiento de una tabla es transparente al usuario de la
aplicacin. Para el usuario, la tabla aparece como siempre, como un
conjunto lgico de registros de datos.
La habilidad de dividir una nica tabla, la cual est causando un cuello
de botella en el sistema, en dos o tres particiones nuevas es esencial
para aumentar los beneficios del procesamiento paralelo. Todas las
operaciones a nivel tabla, como backup y recovery, ahora se podrn
hacer a nivel particin.
Ventajas del particionamiento:
Posibilitar scans paralelos ms eficientes donde una tarea se divide
en subtareas y los datos se pueden ir ordenando en paralelo.
Construir ndices en paralelo disminuyendo el tiempo total de esta
tarea.
Administracin de la base de datos a nivel particin.
ptima distribucin de los datos.
Las particiones no relacionadas a una consulta en particular son
pasadas por alto automticamente y las aplicaciones pueden omitir
las particiones no disponibles.


HERRAMIENTAS MULTIDIMENSIONALES

Visin General
Un proyecto de Data Warehouse deber suministrar:
Una solucin comercialmente disponible que ya contenga una funcionalidad
DSS gil, que pueda ser utilizada por usuarios casuales, a la vez que por
usuarios experimentados.
La ventaja de una tecnologa abierta, que permitir tomar ventaja e
integrar cualquier herramienta nueva para el acceso de informacin cliente-
servidor que surja en el mercado, o que ya est disponible.
Un producto que entiende cmo navegar dentro de su modelo especfico de
datos, sin programacin alguna.
La posibilidad de tener una Base de Datos rica en caractersticas,
operacional y de alto rendimiento, dentro de un tiempo mnimo.
La flexibilidad de ampliarla en el futuro, an aadiendo tipos de informacin
totalmente nuevos, sin necesidad de programacin adicional.
Diseo de bases de datos
Hay dos objetivos principales en la construccin de un modelo de datos para el
Data Warehouse:
Que sea sencillo
Que sea poderoso
Los modelos de datos estndar, de entidad-relacin altamente normalizada,
estn diseados para brindar acceso de datos altamente eficiente para un gran
nmero de transacciones involucrando unos pocos registros. En los sistemas de
apoyo en la toma de decisiones tiende a haber relativamente pocas
transacciones simultneas, cada una con acceso a un gran nmero de registros.
Esto es lo que diferencia a los sistemas OLAP (On Line Analytical Systems, o
apoyo en la toma de decisiones) de los sistemas OLTP (On Line Transaction
Processing). Esta diferencia representa profundas implicaciones para el
diseador de la base de datos.
Un segundo punto con los modelos de datos altamente normalizados es que
estos tienden a ser relativamente complejos, y por tanto presentan
dificultades de navegacin para el usuario final. Segn lo vemos, una de los
principales objetivos de este proyecto es presentar una solucin que sea fcil
de usar por parte de los usuarios.
Adems de rendimiento y facilidad de navegacin, el diseo de la base de datos
tiene que brindar las bases para la poderosa funcionalidad que el usuario final
exige.
QUE ES EL MODELAJE DIMENSIONAL?

Es una tcnica desarrollada para estructurar datos alrededor de conceptos
comerciales naturales. Consiste en tablas centrales de Hechos, las cuales
almacenan las mediciones numricas bsicas a las que se hace seguimiento, e
incluye tablas satlites que hacen seguimiento a las Dimensiones, o a los
parmetros comerciales naturales que definen cada transaccin.

EJEMPLO
Cmo funcionan las bsquedas dimensionales?
Elementos de dimensin
Atributos de dimensin
Ventajas del modelaje dimensional
Agregacin
Qu tanto agregar?

Cmo funcionan las bsquedas dimensionales?
La clave de las Tablas de Hechos, segn se mencion arriba, las une a las tablas
dimensionales. En las tablas dimensionales es donde se almacenan las
dimensiones naturales del negocio: aquella informacin que constituye las
limitaciones y parmetros a travs de los cuales los usuarios tienden a ver su
informacin.
La informacin en las tablas dimensionales se utiliza para especificar puntos de
quiebre de sub-totales en informes y en limitaciones de bsquedas estndar.
Las Tablas Dimensionales almacenan toda la informacin asociada con cada
dimensin especfica. Incluye:
Seguimiento a las relaciones jerrquicas de cada dimensin.
Seguimiento de los muchos atributos de cada dimensin.
Elementos de dimensin
La jerarqua es elemento fundamental en el modelaje dimensional, ya que
suministra el marco para funcionalidades Drill-down y Drill-up (navegacin
ascendente y descendente)
Un Elemento Dimensional es un atributo especial que representa un nivel
especfico en la jerarqua dimensional. Existe un elemento dimensional para
cada nivel jerrquico.
Atributos de dimensin
Los Atributos de Dimensin son elementos de informacin que describen
Elementos Dimensionales.
Una de las caractersticas de un esquema en estrella (nombre comn para las
estructuras de datos que resultan del paradigma de modelaje dimensional), es
la de que las tablas de dimensin estn de-normalizadas. La de-normalizacin
es un enfoque de diseo de base de datos mediante el cual la informacin
repetitiva se almacena en tablas individuales, para efectos de simplicidad de
diseo y rendimiento. Por tanto, los atributos de dimensin pueden ser
almacenados repetidas veces en la tabla de dimensin, dependiendo de qu
nivel de la jerarqua dimensional describa el atributo.
Ventajas del modelaje dimensional
Las principales ventajas del modelaje dimensional y del esquema de estrella son
la simplicidad y el alto rendimiento. Se manifiesta de tres maneras:
Permite que una estructura de datos jerrquica compleja, de 4 dimensiones,
sea definida en un esquema simple de 5 tablas. Esto hace fcil definir
relaciones jerrquicas dentro de cada dimensin, y tambin hace fcil
reuperar la informacin sin que el usuario final tenga que someterse a una
complicada tarea de uniones a travs de tablas mltiples.
Reduce el nmero de uniones fsicas que la bsqueda tiene que procesar.
Esto mejora considerablemente el rendimiento. Aunque crear Vistas de la
informacin puede hacer que navegar entre ella sea ms fcil, no reduce las
uniones fsicas procesadas por el motor RDBMS, y puede ocasionar una
importante degradacin en el rendimiento.
Permite a su base de informacin ampliarse y evolucionar con muy poco
mantenimiento. Las aplicaciones entienden fcilmente un diseo dimensional
simple. Esto quiere decir que, a medida que su base de informacin crece,
sus aplicaciones pueden crecer con ella, sin tener que reprogramar como
consecuencia de nuevos tipos de estructuras de datos, software para
acceso de datos.
Agregacin
La agregacin es el proceso mediante el cual la informacin de bajo nivel se
resume anticipadamente y se coloca en tablas especiales que almacenan la
informacin resumida, o Agregada. La tcnica de agregacin es parte integral
de la solucin al problema de performance.
Prcticamente todas las bsquedas en el Data Warehouse requieren de
resumen, o agregacin, de elementos de datos. Para datos a los que se tiene
acceso con frecuencia, el pre-resumen es casi siempre til. Esto permite usar
resultados intermedios, o agregados, reduciendo grandemente los recursos
necesarios para producir los resultados finales de la bsqueda.
Qu tanto agregar?
Las respuestas podran ser: Se puede no agregar en absoluto, o se puede
agregar para cada combinacin posible de bsquedas que el usuario pueda
necesitar. Para base de datos muy voluminosa, ninguna de estas soluciones es
la ptima.
No agregar en absoluto est bien cuando el volumen de informacin en la tabla
de hechos es pequeo. Adicionalmente, si se solicita al usuario final obtener la
informacin utilizando solamente una herramienta de bsqueda ad-hoc, la
agregacin podra resultar poco prctica.
Agregar en todas las combinaciones posibles brinda el mejor rendimiento
posible, pero a unos costos tremendos de almacenamiento, mantenimiento y
tiempo de cargue. En primer lugar, almacenar informacin de resumen a todos
los niveles posibles consume grandes cantidades de espacio de disco, y aumenta
los requerimientos de almacenamiento en un factor de 5-6. En segundo lugar,
las bases de datos tienen miles de combinaciones de elementos dimensionales,
y la creacin de una tabla o tablas para almacenar los agregados de todas esas
combinaciones representa una tarea monumental de mantenimiento.
Finalmente, la construccin de agregados cada vez que se aade informacin
nueva a la tabla de hechos puede consumir tanto tiempo y recursos que el
perodo de tiempo requerido para que la base de datos vuelva a ser operacional
puede ser inaceptable o prohibitivamente costoso.
Lo que se requiere es un motor de bsqueda que utilice los agregados
inteligentemente.

También podría gustarte