Está en la página 1de 7

UNIVERSIDAD POLITCNICA SALESIANA CARRERA DE INGEENEIRA EN SISTEMAS BASE DE DATOS III NOMBRES: -Vinicio Galarza B. -Vctor Flores A.

- David Lpez P. FECHA: 7 de octubre 2011 TEMA: Modelado de un Almacn de Datos Resumen Ejecutivo:
El modelado de un almacn de datos se basa en tener datos correctamente guardados, para esto se sigue nueve pasos que dictan cmo desarrollar un almacn de datos que se coherente con la realidad de los datos que se est modelando. Antes de ello, se debe tener muy claro ciertos conceptos que ayudan para la elaboracin de un almacn de datos, como por ejemplo todo lo que tiene que ver tablas y relaciones. La topologa tambin es importante porque eso agilitar el poder de las consultas.

Desarrollo:
CONCEPTOS PREVIOS QUE SE DEBEN TENER EN CUENTA PARA LA ELABORACIN DE UN ALMACEN DE DATOS Para la construccin de un almacn de datos es necesario saber casi exactamente los requerimientos de usuario y qu datos se van a obtener. Pues si bien la elaboracin de un almacn de datos es compleja, lo ms consecuente es desarrollarlo mediante mercado de datos, ya que esta solucin es ms factible por su sencillez. Despus se recolecta los datos desde OLTP u OLAP segn sea el caso, para llenar el almacn de datos con datos coherentes, limpios y vlidos. Modelado de la dimensionalidad.- Es una tcnica utilizada en la elaboracin de un almacn de datos, que utiliza ciertos criterios del modelo E-R con ciertas restricciones. Pues bien, esta tcnica nos dice que debemos tener una tabla de hechos, que est formada por una clave principal compuesta y tablas de dimensin, que estn formadas por una clave principal simple. Esto quiere decir que las claves principales de las tablas de dimensin forman la clave compuesta de la tabla de hechos. Tambin las tablas de dimensin tienen otro campo llamado clave natural, que son independientes de la clave principal simple que se la llama clave subrogada que es un tanto independiente de los campos que posee la tabla de dimensiones. La tabla de hechos se conforma con datos factuales, es decir con datos que puedan quedar constantes a travs del tiempo y que se cambien la menor cantidad de veces posible.

A diferencia de la tabla de hechos, los atributos de las tablas de dimensin son datos textuales descriptivos, que se usan como restricciones a las consultas que se hacen al almacn, es decir, siempre habr una comparacin excluyente de datos en cada consulta. Una vez visto cmo se integran las tablas, pues ahora viene la topologa de la base de datos que servir como almacn de datos. Existen tres tipos de esquemas empleados: 1) Estrella: Es aquel que desnormaliza a las tablas de dimensin para que las consultas sean ms eficientes al recorrer menor nmero de tablas. 2) Copo de Nieve: En este esquema se hace una normalizacin de las tablas para que las dimensiones tengan dimensiones. 3) Copo de Estrella: Es una combinacin entre los dos esquemas antes mencionados. Independientemente del esquema que se utilice, el modelo dimensional brinda las siguientes ventajas: EFICIENCIA: Los esquemas propuestos ofrecen alta eficiencia en las consultas. POSIBILIDAD DE CAMBIAR REQUISITOS CAMBIANTES: Puede soportar consultas ad hoc. AMPLIABILIDAD: Si no se afecta la coherencia de la granularidad, permite ser ampliables tanto en la tabla de hechos como en la tabla de dimensiones. CAPACIDAD DE MODELAR SITUACIONES EMPRESARIALES COMUNES: Por esta razn es la base del Datawarehousing. PROCESAMIENTO DE CONSULTAS PREDECIBLE: Por la esquemas anteriores, las consultas son directas, ya que los atributos siguen una lnea recta de esquematizacin. METODOLOGA DE DISEO DE DATOS PARA EL ALMACN DE DATOS La metodologa que se va a usar es la que plante Kimball en 1996, que propone en descomponer el almacn de datos en mercados de datos, para despus integrarlos y as, montar un almacn de alcance corporativo. Son nueve los pasos a seguir para que el almacn de datos a ms de ser coherente, cumpla todo lo antes establecido. Paso 1: Seleccin de Proceso: Se tiene que apuntar al centro de los requisitos principales del cliente, es decir, a la esencia del almacn de datos. Paso 2: Granularidad: Se refiere a cmo va estar conformada la tabla de hechos, es decir, que todos los datos representativos confluyen en la tabla de hechos. Paso 3: Identificacin y conformacin de las dimensiones: Se establecen los hechos que estn contenidos dentro de la tabla de hechos. Es referente a las descripciones individuales que se pueden obtener desde las tablas de dimensin hacia la tabla de hechos. Paso 4: Seleccin de los hechos: Se seleccionan los hechos que van a intervenir en el mercado de datos, o sea, que datos intervienen en la produccin del DataWerehousing.

Paso 5: Almacenamiento de los valores pre-calculados en la tabla de hechos: Quiere decir que hemos de registrar dentro del almacn de datos los valores que sern precalculados, como por ejemplo, si queremos encontrar el clculo de uno de los campos registrados dentro de la tabla de hechos, debemos pre-calcular dicha operacin para as agilizar el tiempo de consulta. Paso 6: Terminacin de las tablas de dimensin: En este paso, se aaden descripciones textuales para que las dichas tablas se vuelvan intuitivas y comprensibles para el usuario. Paso 7: Seleccin de la duracin de la base de datos: Es la cualidad de hasta que hechos puede retroceder el almacn, esto deriva en un alto grado de problemas ya que pueden haber actualizaciones que cambien los datos y as, llevar a confusiones en el momento de presentar reportes. Paso 8: Control de las dimensiones lentamente cambiantes: Aqu, se pide identificar cules son los valores antiguos y cules son los valores nuevos, porque los que ms importan son los valores antiguos en el momento de la toma de decisiones. Paso 9: Seleccin de las prioridades de consulta y de los modos de consulta: Esto es referente ms al desarrollo fsico del almacn de datos. De cmo este distribuido el almacn en el disco y todos sus componentes para que sea de fcil interpretacin. CRITERIOS PARA EVALUAR LA DIMENSIONALIDAD DE UN ALMACN DE DATOS

GRUPO
Arquitectura

CRITERIO
Declaracin explcita Hechos y dimensiones conformadas Integridad dimensional Navegacin Abierta de los agregados Simetra dimensional Escalabilidad dimensional Tolerancia relativa a la densidad Modificacin sencilla Replicacin dimensional Notificacin de cambio de dimensin Administracin de claves subrogadas Coherencia internacional Jerarquas multidimensin Jerarqua de dimensiones intercaladas Dimensiones multivaluadas Dimensiones lentamente cambiantes Papeles de una Dimensin Dimensiones de rangos de hechos generales sobre la marcha Dimensiones de comportamiento de hechos generales sobre la marcha

Administracin

Expresin

EJEMPLO DE MODELADO DE UN ALMACN DE DATOS Siguiendo los pasos anteriormente descritos, se ha desarrollado un modelo de almacn de datos como el que sigue:

El siguiente modelo est basado en un modelo E-R.

Aplicando los criterios de un modelo dimensional quedara de la siguiente manera:

CONCLUSIONES: El diseo multidimensional es un mtodo de diseo de bases de datos basado en el modelo relacional. Es necesario seleccionar un esquema adecuado que reeje el uso previsto. Los almacenes de datos existen para facilitar las consultas complejas, que involucran a gran cantidad de datos y que son con frecuencia ad hoc.

RECOMENDACIONES: Cada vez que una base de datos fuente cambia, el administrador del almacn de datos debe considerar las posibles interacciones con otros elementos del almacn Las fuentes y sus datos evolucionarn y el almacn debe contemplar dichos cambios. BIBLIOGRAFA: http://informatica.uv.es/iiguia/DBD/Teoria/data-warehouses.pdf CONNOLLY, Thomas, BEGG, Carolyn, Sistemas de bases de datos: un enfoque prctico
para diseo, implementacin y gestin, 4 Edison ilustrada, Pearson Educacin, 2006.

También podría gustarte