Está en la página 1de 20

BODEGAS DE DATOS

CRISTIAN FABIAN CASTILLO LOPEZ


MAICOL RUEDA

UNIVERSIDAD DEL TOLIMA (IDEAD)


INGENIERA DE SISTEMAS
HONDA-TOLIMA
2012
1

BODEGAS DE DATOS

CRISTIAN FABIAN CASTILLO LOPEZ


MAICOL RUEDA

Trabajo de Investigacin
Unidad N 3

Ivn Andrs Blanco Polana


Ingeniero de Sistemas

UNIVERSIDAD DEL TOLIMA (IDEAD)


INGENIERA DE SISTEMAS
HONDA-TOLIMA
2012
2

ndice

Introduccin.....

Pg. 4

Objetivos..

Pg. 5

PROCESOS
DE
INTEGRACIN,
VALIDACIN
Y
CONSOLIDACIN DE LA INFORMACIN..

Pg. 6

FASES DE CREACIN DE UN DATA WAREHOUSE

Pg. 8

ARQUITECTURA DE UN DATA WAREHOUSE .......................

Pg. 6

ROLAP, MOLAP, DATA MART

Pg. 15

PREGUNTAS GENERADORAS..

Pg. 18

Conclusiones..

Pg. 19

Bibliografa...

Pg. 20

INTRODUCCIN
En el siguiente documento se tratara la conceptualizacin correspondiente a la
unidad nmero 3, siendo esta de gran importancia ya que son componente
principal de la asignatura.

OBJETIVO GENERALES

Identificar la arquitectura bsica de una Bodega de Datos o Data WareHouse.

OBJETIVOS ESPECIFICOS
Conocer las procedimientos existentes para la integracin y validacin de la
informacin.

Conocer la e identificar la conceptualizacin correspondiente a toda la


unidad y su contenido temtico.

PROCESOS DE INTEGRACIN, VALIDACIN Y CONSOLIDACIN DE LA


INFORMACIN
El aspecto ms importante del ambiente data warehousing es que la informacin
encontrada al interior est siempre integrada.
La integracin de datos se muestra de muchas maneras: en convenciones de
nombres consistentes, en la medida uniforme de variables, en la codificacin de
estructuras consistentes, en atributos fsicos de los datos consistentes, fuentes
mltiples y otros.
El contraste de la integracin encontrada en el data warehouse con la carencia de
integracin del ambiente de aplicaciones, se muestran en la Figura N 2, con
diferencias bien marcadas.
A travs de los aos, los diseadores de las diferentes aplicaciones han tomado
sus propias decisiones sobre cmo se debera construir una aplicacin. Los estilos
y diseos personalizados se muestran de muchas maneras.
Se diferencian en la codificacin, en las estructuras claves, en sus caractersticas
fsicas, en las convenciones de nombramiento y otros. La capacidad colectiva de
muchos de los diseadores de aplicaciones, para crear aplicaciones
inconsistentes, es fabulosa. La Figura N 2 mencionada, muestra algunas de las
diferencias ms importantes en las formas en que se disean las aplicaciones.

Codificacin. Los diseadores de aplicaciones codifican el campo


GNERO en varias formas. Un diseador representa GENERO como una
"M" y una "F", otros como un "1" y un "0", otros como una "X" y una "Y" e
inclusive, como "masculino" y "femenino".
No importa mucho cmo el GENERO llega al data warehouse.
Probablemente "M" y "F" sean tan buenas como cualquier otra
representacin. Lo importante es que sea de cualquier fuente de donde
venga, el GENERO debe llegar al data warehouse en un estado integrado
uniforme.
Por lo tanto, cuando el GENERO se carga en el data warehouse desde una
aplicacin, donde ha sido representado en formato "M" y "F", los datos
deben convertirse al formato del data warehouse.

Medida de atributos. Los diseadores de aplicaciones miden las unidades


de medida de las tuberas en una variedad de formas. Un diseador
almacena los datos de tuberas en centmetros, otros en pulgadas, otros en
millones de pies cbicos por segundo y otros en yardas.

Al dar medidas a los atributos, la transformacin traduce las diversas


unidades de medida usadas en las diferentes bases de datos para
transformarlas en una medida estndar comn.
Cualquiera que sea la fuente, cuando la informacin de la tubera llegue al
data warehouse necesitar ser medida de la misma manera.

Convenciones de Nombramiento.- El mismo elemento es frecuentemente


referido por nombres diferentes en las diversas aplicaciones. El proceso de
transformacin asegura que se use preferentemente el nombre de usuario.

Fuentes Mltiples.- El mismo elemento puede derivarse desde fuentes


mltiples. En este caso, el proceso de transformacin debe asegurar que la
fuente apropiada sea usada, documentada y movida al depsito.

Tal como se muestra en la figura, los puntos de integracin afectan casi todos los
aspectos de diseo - las caractersticas fsicas de los datos, la disyuntiva de tener
ms de una de fuente de datos, el problema de estndares de denominacin
inconsistentes, formatos de fecha inconsistentes y otros.
Cualquiera que sea la forma del diseo, el resultado es el mismo - la informacin
necesita ser almacenada en el data warehouse en un modelo globalmente
aceptable y singular, aun cuando los sistemas operacionales subyacentes
almacenen los datos de manera diferente.
Cuando el analista de sistema de soporte de decisiones observe el data
warehouse, su enfoque deber estar en el uso de los datos que se encuentre en el
depsito, antes que preguntarse sobre la confiabilidad o consistencia de los
datos.
FASES DE CREACION DE UN DATA WAREHOUSE
Tal y como apareca en un artculo en ComputerWorld: "Un Data Warehouse no se
puede comprar, se tiene que construir". Como hemos mencionado con
anterioridad, la construccin e implantacin de un Data Warehouse es un proceso
evolutivo.
Este proceso se tiene que apoyar en una metodologa especfica para este tipo de
procesos, si bien es ms importante que la eleccin de la mejor de las
metodologas, el realizar un control para asegurar el seguimiento de la misma.
En las fases que se establezcan en el alcance del proyecto es fundamental el
incluir una fase de formacin en la herramienta utilizada para un mximo
aprovechamiento de la aplicacin. El seguir los pasos de la metodologa y el
comenzar el Data Warehouse por un rea especfica de la empresa, nos permitir
obtener resultados tangibles en un corto espacio de tiempo.
Planteamos aqu la metodologa propuesta por SAS Institute: la "Rapid
Warehousing Methodology". Dicha metodologa es iterativa, y est basada en el
desarrollo incremental del proyecto de Data Warehouse dividido en cinco fases:

Definicin de los objetivos


Definicin de los requerimientos de informacin
Diseo y modelizacin
Implementacin
Revisin

Definicin de los objetivos


Definicin de los requerimientos de informacin
Tal como sucede en todo tipo de proyectos, sobre todo si involucran tcnicas
novedosas como son las relativas al Data Warehouse, es analizar las necesidades
y hacer comprender las ventajas que este sistema puede reportar.
Es por ello por lo que nos remitimos al apartado de esta gua de Anlisis de las
necesidades del comprador. Ser en este punto, en donde detallaremos los pasos
a seguir en un proyecto de este tipo, en donde el usuario va a jugar un papel tan
destacado.
Diseo y modelizacin
Los requerimientos de informacin identificados durante la anterior fase
proporcionarn las bases para realizar el diseo y la modelizacin del Data
Warehouse.
En esta fase se identificarn las fuentes de los datos (sistema operacional, fuentes
externas,..) y las transformaciones necesarias para, a partir de dichas fuentes,
obtener el modelo lgico de datos del Data Warehouse. Este modelo estar
formado por entidades y relaciones que permitirn resolver las necesidades de
negocio de la organizacin.
El modelo lgico se traducir posteriormente en el modelo fsico de datos que se
almacenar en el Data Warehouse y que definir la arquitectura de
almacenamiento del Data Warehouse adaptndose al tipo de explotacin que se
realice del mismo.
La mayor parte estas definiciones de los datos del Data Warehouse estarn
almacenadas en los metadatos y formarn parte del mismo.
Implementacin
La implantacin de un Data Warehouse lleva implcitos los siguientes pasos:

Extraccin de los datos del sistema operacional y transformacin de los


mismos.
Carga de los datos validados en el Data Warehouse. Esta carga deber ser
planificada con una periodicidad que se adaptar a las necesidades de
refresco detectadas durante las fases de diseo del nuevo sistema.
9

Explotacin del Data Warehouse mediante diversas tcnicas dependiendo


del tipo de aplicacin que se de a los datos:

Query & Reporting


On-line analytical processing (OLAP)
Executive Information System (EIS) Informacin de gestin
Decision Support Systems (DSS)
Visualizacin de la informacin
Data Mining Minera de Datos, etc.

La informacin necesaria para mantener el control sobre los datos se almacena en


los metadatos tcnicos (cuando describen las caractersticas fsicas de los datos)
y de negocio (cuando describen cmo se usan esos datos). Dichos metadatos
debern ser accesibles por los usuarios finales que permitirn en todo momento
tanto al usuario, como al administrador que deber adems tener la facultad de
modificarlos segn varen las necesidades de informacin.
Con la finalizacin de esta fase se obtendr un Data Warehouse disponible para
su uso por parte de los usuarios finales y el departamento de informtica.
Revisin
La construccin del Data Warehouse no finaliza con la implantacin del mismo,
sino que es una tarea iterativa en la que se trata de incrementar su alcance
aprendiendo de las experiencias anteriores.
Despus de implantarse, debera realizarse una revisin del Data Warehouse
planteando preguntas que permitan, despus de los seis o nueve meses
posteriores a su puesta en marcha, definir cules seran los aspectos a mejorar o
potenciar en funcin de la utilizacin que se haga del nuevo sistema.
Diseo de la estructura de cursos de formacin
Con la informacin obtenida de reuniones con los distintos usuarios se disearn
una serie de cursos a medida, que tendrn como objetivo el proporcionar la
formacin estadstica necesaria para el mejor aprovechamiento de la funcionalidad
incluida en la aplicacin. Se realizarn prcticas sobre el desarrollo realizado, las
cuales permitirn fijar los conceptos adquiridos y servirn como formacin a los
usuarios.
ARQUITECTURA DE UN DATA WAREHOUSE
Una de las razones por las que el desarrollo de un data warehouse crece
rpidamente, es que realmente es una tecnologa muy entendible. De hecho, data
warehousing puede representar mejor la estructura amplia de una empresa para
administrar los datos informacionales dentro de la organizacin. A fin de
comprender cmo se relacionan todos los componentes involucrados en una
estrategia data warehousing, es esencial tener una Arquitectura Data Warehouse.
10

ELEMENTOS
WAREHOUSE

CONSTITUYENTES

DE

UNA

ARQUITECTURA

DATA

Una Arquitectura Data Warehouse (Data Warehouse Architecture - DWA) es una


forma de representar la estructura total de datos, comunicacin, procesamiento y
presentacin, que existe para los usuarios finales que disponen de una
computadora dentro de la empresa.
La arquitectura se constituye de un nmero de partes interconectadas:

Base de datos operacional / Nivel de base de datos externo


Nivel de acceso a la informacin
Nivel de acceso a los datos
Nivel de directorio de datos (Metadata)
Nivel de gestin de proceso
Nivel de mensaje de la aplicacin
Nivel de data warehouse
Nivel de organizacin de datos

Base de datos operacional / Nivel de base de datos externo


Los sistemas operacionales procesan datos para apoyar las necesidades
operacionales crticas. Para hacer eso, se han creado las bases de datos
operacionales histricas que proveen una estructura de procesamiento
eficiente, para un nmero relativamente pequeo de transacciones
comerciales bien definidas.

11

Sin embargo, a causa del enfoque limitado de los sistemas operacionales,


las bases de datos diseadas para soportar estos sistemas, tienen dificultad
al accesar a los datos para otra gestin o propsitos informticos.
Esta dificultad en accesar a los datos operacionales es amplificada por el
hecho que muchos de estos sistemas tienen de 10 a 15 aos de
antigedad. El tiempo de algunos de estos sistemas significa que la
tecnologa de acceso a los datos disponible para obtener los datos
operacionales, es as mismo antigua.
Ciertamente, la meta del data warehousing es liberar la informacin que es
almacenada en bases de datos operacionales y combinarla con la
informacin desde otra fuente de datos, generalmente externa.
Cada vez ms, las organizaciones grandes adquieren datos adicionales
desde bases de datos externas. Esta informacin incluye tendencias
demogrficas, economtricas, adquisitivas y competitivas (que pueden ser
proporcionadas por Instituciones Oficiales - INEI). Internet o tambin
llamada "information superhighway" (supercarretera de la informacin)
provee el acceso a ms recursos de datos todos los das.

Nivel de acceso a la informacin


El nivel de acceso a la informacin de la arquitectura data warehouse, es el
nivel del que el usuario final se encarga directamente. En particular,
representa las herramientas que el usuario final normalmente usa da a da.
Por ejemplo: Excel, Lotus 1-2-3, Focus, Access, SAS, etc.
Este nivel tambin incluye el hardware y software involucrados en mostrar
informacin en pantalla y emitir reportes de impresin, hojas de clculo,
grficos y diagramas para el anlisis y presentacin. Hace dos dcadas que
el nivel de acceso a la informacin se ha expandido enormemente,
especialmente a los usuarios finales quienes se han volcado a las PCs
monousuarias y las PCs en redes.
Actualmente, existen herramientas ms y ms sofisticadas para manipular,
analizar y presentar los datos, sin embargo, hay problemas significativos al
tratar de convertir los datos tal como han sido recolectados y que se
encuentran contenidos en los sistemas operacionales en informacin fcil y
transparente para las herramientas de los usuarios finales. Una de las
claves para esto es encontrar un lenguaje de datos comn que puede
usarse a travs de toda la empresa.

12

Nivel de acceso a los datos


El nivel de acceso a los datos de la arquitectura data warehouse est
involucrado con el nivel de acceso a la informacin para conversar en el
nivel operacional. En la red mundial de hoy, el lenguaje de datos comn
que ha surgido es SQL. Originalmente, SQL fue desarrollado por IBM como
un lenguaje de consulta, pero en los ltimos veinte aos ha llegado a ser el
estndar para el intercambio de datos.
Uno de los adelantos claves de los ltimos aos ha sido el desarrollo de
una serie de "filtros" de acceso a datos, tales como EDA/SQL para accesar
a casi todo los Sistemas de Gestin de Base de Datos (Data Base
Management Systems - DBMSs) y sistemas de archivos de datos,
relacionales o no. Estos filtros permiten a las herramientas de acceso a la
informacin, accesar tambin a la data almacenada en sistemas de gestin
de base de datos que tienen veinte aos de antigedad.
El nivel de acceso a los datos no solamente conecta DBMSs diferentes y
sistemas de archivos sobre el mismo hardware, sino tambin a los
fabricantes y protocolos de red. Una de las claves de una estrategia data
warehousing es proveer a los usuarios finales con "acceso a datos
universales".
El acceso a los datos universales significa que, tericamente por lo menos,
los usuarios finales sin tener en cuenta la herramienta de acceso a la
informacin o ubicacin, deberan ser capaces de accesar a cualquier o
todos los datos en la empresa que es necesaria para ellos, para hacer su
trabajo.
El nivel de acceso a los datos entonces es responsable de la interfase entre
las herramientas de acceso a la informacin y las bases de datos
operacionales. En algunos casos, esto es todo lo que un usuario final
necesita. Sin embargo, en general, las organizaciones desarrollan un plan
mucho ms sofisticado para el soporte del data warehousing.

Nivel de Directorio de Datos (Metadata)


A fin de proveer el acceso a los datos universales, es absolutamente
necesario mantener alguna forma de directorio de datos o repositorio de la
informacin metadata. La metadata es la informacin alrededor de los datos
dentro de la empresa.
Las descripciones de registro en un programa COBOL son metadata.
Tambin lo son las sentencias DIMENSION en un programa FORTRAN o
las sentencias a crear en SQL.

13

A fin de tener un depsito totalmente funcional, es necesario tener una


variedad de metadata disponibles, informacin sobre las vistas de datos de
los usuarios finales e informacin sobre las bases de datos operacionales.
Idealmente, los usuarios finales deberan de accesar a los datos desde el
data warehouse (o desde las bases de datos operacionales), sin tener que
conocer dnde residen los datos o la forma en que se han almacenados.

Nivel de Gestin de Procesos


El nivel de gestin de procesos tiene que ver con la programacin de
diversas tareas que deben realizarse para construir y mantener el data
warehouse y la informacin del directorio de datos. Este nivel puede
depender del alto nivel de control de trabajo para muchos procesos
(procedimientos) que deben ocurrir para mantener el data warehouse
actualizado.

Nivel de Mensaje de la Aplicacin


El nivel de mensaje de la aplicacin tiene que ver con el transporte de
informacin alrededor de la red de la empresa. El mensaje de aplicacin se
refiere tambin como "subproducto", pero puede involucrar slo protocolos
de red. Puede usarse por ejemplo, para aislar aplicaciones operacionales o
estratgicas a partir del formato de datos exacto, recolectar transacciones o
los mensajes y entregarlos a una ubicacin segura en un tiempo seguro.

Nivel Data Warehouse (Fsico)


En el data warehouse (ncleo) es donde ocurre la data actual, usada
principalmente para usos estratgicos. En algunos casos, uno puede
pensar del data warehouse simplemente como una vista lgica o virtual de
datos. En muchos ejemplos, el data warehouse puede no involucrar
almacenamiento de datos.
En un data warehouse fsico, copias, en algunos casos, muchas copias de
datos operacionales y/o externos, son almacenados realmente en una
forma que es fcil de accesar y es altamente flexible. Cada vez ms, los
data warehouses son almacenados sobre plataformas cliente/servidor, pero
por lo general se almacenan sobre mainframes.

Nivel de Organizacin de Datos


El componente final de la arquitectura data warehouse es la organizacin
de los datos. Se llama tambin gestin de copia o rplica, pero de hecho,
incluye todos los procesos necesarios como seleccionar, editar, resumir,
combinar y cargar datos en el depsito y accesar a la informacin desde
bases de datos operacionales y/o externas.
14

La organizacin de datos involucra con frecuencia una programacin


compleja, pero cada vez ms, estn crendose las herramientas data
warehousing para ayudar en este proceso. Involucra tambin programas de
anlisis de calidad de datos y filtros que identifican modelos y estructura de
datos dentro de la data operacional existente.
METADATA
Otro aspecto de la arquitectura de data warehouse es crear soporte a la metadata.
Metadata es la informacin sobre los datos que se alimenta, se transforma y existe
en el data warehouse. Metadata es un concepto genrico, pero cada
implementacin de la metadata usa tcnicas y mtodos especficos.
Estos mtodos y tcnicas son dependientes de los requerimientos de cada
organizacin, de las capacidades existentes y de los requerimientos de interfase
de usuario. Hasta ahora, no hay normas para la metadata, por lo que la metadata
debe definirse desde el punto de vista del software data warehousing,
seleccionado para una implementacin especfica.
Tpicamente, la metadata incluye los siguientes tems:

Las estructuras de datos que dan una visin de los datos al administrador
de datos.
Las definiciones del sistema de registro desde el cual se construye el data
warehouse.
Las especificaciones de transformaciones de datos que ocurren tal como la
fuente de datos se replica al data warehouse.
El modelo de datos del data warehouse (es decir, los elementos de datos y
sus relaciones).
Un registro de cuando los nuevos elementos de datos se agregan al data
warehouse y cuando los elementos de datos antiguos se eliminan o se
resumen.
Los niveles de sumarizacion, el mtodo de sumarizacion y las tablas de
registros de su data warehouse.

Algunas implementaciones de la metadata tambin incluyen definiciones de la(s)


vista(s) presentada(s) a los usuarios del data warehouse. Tpicamente, se definen
vistas mltiples para favorecer las preferencias variadas de diversos grupos de
usuarios. En otras implementaciones, estas descripciones se almacenan en un
Catlogo de Informacin.
Los esquemas y subesquemas para bases de datos operacionales, forman una
fuente ptima de entrada cuando se crea la metadata. Hacer uso de la
documentacin existente, especialmente cuando est disponible en forma
electrnica, puede acelerar el proceso de definicin de la metadata del ambiente
data warehousing.
15

La metadata sirve, en un sentido, como el corazn del ambiente data


warehousing. Crear definiciones de metadata completa y efectiva puede ser un
proceso que consuma tiempo, pero lo mejor de las definiciones y si usted usa
herramientas de gestin de software integrado, son los esfuerzos que darn como
resultado el mantenimiento del data warehouse.
ROLAP
ROLAP significa Procesamiento Analtico OnLine Relacional, es decir, se trata de
sistemas y herramientas OLAP (Procesamiento Analtico OnLine) construidos
sobre una base de datos relacional. Es una alternativa a la
tecnologa MOLAP (Multidimensional OLAP) que se construye sobre bases de
datos multidimensionales. Ambos tipos de herramientas, tanto ROLAP como
MOLAP, estn diseadas para realizar anlisis de datos a travs del uso de
modelos de datos multidimensionales, aunque en el caso de ROLAP estos
modelos no se implementan sobre un sistema multidimensional, sino sobre un
sistema relacional clsico.
MOLAP
Es el acrnimo ingls de Multidimensional Online Analytical Processing,
decir, 'procesamiento analtico multidimensional en lnea.

es

Se trata de una alternativa a la tecnologa ROLAP (OLAP-Relacional). Aunque


ambos tipos de herramientas estn diseadas para realizar anlisis de datos a
travs de un modelo de datos multidimensional, MOLAP se diferencia
significativamente en que requiere un pre procesamiento y almacenamiento de la
informacin contenida en el cubo OLAP. MOLAP almacena estos datos en una
matriz de almacenamiento multidimensional optimizada, ms que en una base de
datos relacional (o en un ROLAP).
DATA MART
Un Data mart es una versin especial de almacn de datos (data warehouse).
Son subconjuntos de datos con el propsito de ayudar a que un rea especfica
dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este
contexto pueden ser agrupados, explorados y propagados de mltiples formas
para que diversos grupos de usuarios realicen la explotacin de los mismos de la
forma ms conveniente segn sus necesidades.
El Data mart es un sistema orientado a la consulta, en el que se producen
procesos batch de carga de datos (altas) con una frecuencia baja y conocida. Es
consultado mediante herramientas OLAP (On line Analytical Processing Procesamiento Analtico en Lnea) que ofrecen una visin multidimensional de la
informacin. Sobre estas bases de datos se pueden construir EIS (Executive
Information Systems, Sistemas de Informacin para Directivos) y DSS (Decision
Support Systems, Sistemas de Ayuda a la toma de Decisiones). Por otra parte, se
conoce como Data Mining al proceso no trivial de anlisis de grandes cantidades
16

de datos con el objetivo de extraer informacin til, por ejemplo para realizar
clasificaciones o predicciones.
En sntesis, se puede decir que los data marts son pequeos data
warehouse centrados en un tema o un rea de negocio especfico dentro de una
organizacin.

17

PREGUNTAS GENERADORAS
Por qu es necesario contar con procesos de integracin, validacin y consolidacin de
informacin?
R/: es necesario puesto que con estos tres procesos se sabr de manera ms detallada la
informacin contenida y la informacin a ingresar que posteriormente se consultara.
Cules son las diferencias entre MOLAP y ROLAP?

R/: MOLAP se diferencia significativamente en que requiere un pre-procesamiento y


almacenamiento de la informacin contenida en el cubo OLAP. MOLAP almacena estos datos en
una matriz de almacenamiento multidimensional optimizada, ms que en una base de datos
relacional (o en un ROLAP).

18

CONCLUSINES

Con base a este trabajo se ha concluido:


Identificado la arquitectura bsica de una Bodega de Datos a su vez se ha
profundizado enormemente en el aprendizaje de la conceptualizacin de las
bodegas de datos, siendo estas de gran importancia ya que con esto
aprenderemos su estructura, desarrollo y arquitectura

19

Bibliografa

http://www.ongei.gob.pe/publica/metodologias/Lib5084/INDEX.HTM

20

También podría gustarte