Está en la página 1de 13

MATERIA: Ingles NOMBRE DEL ALUMNO:

Vctor Jurez Cabrera Josu Ramrez Dvila Anael Humberto Fierros Caldern Eric Mendoza Olalde

PLAN ACADEMICO: Ing. Tecnologas de la Informacin y Comunicacin.

GRUPO: GITI0281 TEMA:


Data Warehouse

DOLORES HIDALGO C. I. N. GTO

13 de abril de 2011

Contenido
Introduccin. ................................................................................................................................. 3 Concepto. ...................................................................................................................................... 3 Funcin. ......................................................................................................................................... 4 Estructura. ..................................................................................................................................... 4 Elementos constituyentes de una Arquitectura Data Warehouse ................................................... 7 Base de datos operacional / Nivel de base de datos externo ...................................................... 7 Nivel de acceso a la informacin ................................................................................................ 8 Nivel de Directorio de Datos (Metadata) .................................................................................... 9 Nivel de Gestin de Procesos ..................................................................................................... 9 Nivel de Mensaje de la Aplicacin .............................................................................................. 9 Nivel Data Warehouse (Fsico) .................................................................................................... 9 Nivel de Organizacin de Datos ................................................................................................ 10 Operaciones en un Data Warehouse ............................................................................................ 10 a) Sistemas Operacionales........................................................................................................ 10 b) Extraccin, Transformacin y Carga de los Datos .................................................................. 10 c) Metadata ............................................................................................................................. 11 d) Acceso de usuario final......................................................................................................... 11 e) Plataforma del data warehouse............................................................................................ 11 f) Datos Externos ...................................................................................................................... 12 Conclusin. .................................................................................................................................. 13

Data Wareouse

Pgina 2

Introduccin.
En el presente documento se dar a conocer los beneficios que atrae el Almacn de datos, as como lo es su concepto de este, otro punto muy importante ser la arquitectura la cual se enfoca al almacn de datos. Tambin se darn a conocer los diferentes sistemas de almacn de datos como lo es el Esquema de estrella, copo de nueve y la constelacin. Es conveniente aclara que solo se dar una definicin muy abstracta ya que este tema es muy extenso, solo se darn los puntos ms importantes para que el lector tenga una idea de lo que se trata.

Concepto.
Almacn de datos (Data Warehouse).
Orientada al mbito informtico se enfoca a las empresas y a las organizaciones entre otros mbitos, no es voltil. Otro de los puntos ms importantes es que ayuda a la toma de decisiones en la entidad en la que se est utilizando. Se trata, sobre todo, de un expediente completo de una organizacin, ms all de la informacin transaccional y operacional, almacenado en una base de datos diseada para favorecer el anlisis y la divulgacin eficiente de datos (especialmente OLAP, procesamiento analtico en lnea).

La mayor diferencia entre la arquitectura de un almacn de datos y una base de datos OLTP estndar, conteniendo datos de los sistemas del planeamiento del recurso de la Data Wareouse Pgina 3

empresa (como SAP, CRM) es que en una estructura de bodega de datos las tablas estn de normalizadas entre variables y dimensiones. OLTP.- es la sigla en ingls de Procesamiento de Transacciones En Lnea (OnLine Transaction Processing) es un tipo de sistemas que facilitan y administran aplicaciones transaccionales, usualmente para entrada de datos y recuperacin y procesamiento de transacciones (gestor transaccional). Los paquetes de software para OLTP se basan en la arquitectura cliente-servidor ya que suelen ser utilizados por empresas con una red informtica distribuida.

Funcin.
Esta tecnologa lo que requiere es que los datos son muy necesario en una empresa y que estn almacenado en un repositorio de datos se conviertan en informacin til para el usuario final. Estos datos tienen que tener una buena consistencia y deben de estar disponibles en el momento en que sern utilizados. Con esta informacin se podrn crear consultas e informes sern de gran ayuda para los usuarios. Los datos estn distribuidos en una base de datos distribuida y peridicamente se importan al almacn de datos de distintos sistemas de planteamiento.

Estructura.
Data Wareouse Pgina 4

Data warehouse tiene una estructura muy particular y muy bien distribuida que se divide en niveles. Estos niveles son los siguientes: Nivel Detalle de actuales Detalle de antiguos Descripcin datos En gran parte, el inters ms importante radica en el detalle de los datos actuales. datos La data antigua es aquella que se almacena sobre alguna forma de almacenamiento masivo. No es frecuentemente acezada y se almacena a un nivel de detalle, consistente con los datos detallados actuales Datos ligeramente La data ligeramente resumida es aquella que proviene desde un bajo resumidos nivel de detalle encontrado al nivel de detalle actual. Este nivel del data warehouse casi siempre se almacena en disco. Datos El siguiente nivel de datos encontrado en el data warehouse es el de los completamente datos completamente resumidos. Estos datos son compactos y resumidos fcilmente accesibles. Metadata Se sita en una dimensin diferente al de otros datos del data warehouse, debido a que su contenido no es tomado directamente desde el ambiente operacional.

Data Wareouse

Pgina 5

Data Wareouse

Pgina 6

Elementos constituyentes de una Arquitectura Data Warehouse


Una Arquitectura Data Warehouse (Data Warehouse Architecture - DWA) es una forma de representar la estructura total de datos, comunicacin, procesamiento y presentacin, que existe para los usuarios finales que disponen de una computadora dentro de la empresa. La arquitectura se constituye de un nmero de partes interconectadas: Base de datos operacional / Nivel de base de datos externo Nivel de acceso a la informacin Nivel de acceso a los datos Nivel de directorio de datos (Metadata) Nivel de gestin de proceso Nivel de mensaje de la aplicacin Nivel de data warehouse Nivel de organizacin de datos

Base de datos operacional / Nivel de base de datos externo


Los sistemas operacionales procesan datos para apoyar las necesidades operacionales crticas. Para hacer eso, se han creado las bases de datos operacionales histricas que proveen una estructura de procesamiento eficiente, para un nmero relativamente pequeo de transacciones comerciales bien definidas. Sin embargo, a causa del enfoque limitado de los sistemas operacionales, las bases de datos diseadas para soportar estos sistemas, tienen dificultad al acceder a los datos para otra gestin o propsitos informticos. Esta dificultad en acceder a los datos operacionales es amplificada por el hecho que muchos de estos sistemas tienen de 10 a 15 aos de antigedad. El tiempo de algunos de estos sistemas significa que la tecnologa de acceso a los datos disponible para obtener los datos operacionales, es as mismo antigua. Ciertamente, la meta del data warehousing es liberar la informacin que es almacenada en bases de datos operacionales y combinarla con la informacin desde otra fuente de datos, generalmente externa. Cada vez ms, las organizaciones grandes adquieren datos adicionales desde bases de datos externas. Esta informacin incluye tendencias demogrficas, economtricas, adquisitivas y competitivas (que pueden ser proporcionadas por Instituciones Oficiales - INEI). Internet o tambin llamada "information superhighway" (supercarretera de la informacin) provee el acceso a ms recursos de datos todos los das.

Data Wareouse

Pgina 7

Nivel de acceso a la informacin


El nivel de acceso a la informacin de la arquitectura data warehouse, es el nivel del que el usuario final se encarga directamente. En particular, representa las herramientas que el usuario final normalmente usa da a da. Por ejemplo: Excel, Lotus 1-2-3, Focus, Access, SAS, etc. Este nivel tambin incluye el hardware y software involucrados en mostrar informacin en pantalla y emitir reportes de impresin, hojas de clculo, grficos y diagramas para el anlisis y presentacin. Hace dos dcadas que el nivel de acceso a la informacin se ha expandido enormemente, especialmente a los usuarios finales quienes se han volcado a los PCs monousuarios y los PCs en redes. Actualmente, existen herramientas ms y ms sofisticadas para manipular, analizar y presentar los datos, sin embargo, hay problemas significativos al tratar de convertir los datos tal como han sido recolectados y que se encuentran contenidos en los sistemas operacionales en informacin fcil y transparente para las herramientas de los usuarios finales. Una de las claves para esto es encontrar un lenguaje de datos comn que puede usarse a travs de toda la empresa.

Nivel de acceso a los datos


El nivel de acceso a los datos de la arquitectura data warehouse est involucrado con el nivel de acceso a la informacin para conversar en el nivel operacional. En la red mundial de hoy, el lenguaje de datos comn que ha surgido es SQL. Originalmente, SQL fue desarrollado por IBM como un lenguaje de consulta, pero en los ltimos veinte aos ha llegado a ser el estndar para el intercambio de datos. Uno de los adelantos claves de los ltimos aos ha sido el desarrollo de una serie de "filtros" de acceso a datos, tales como EDA/SQL para acceder a casi todo los Sistemas de Gestin de Base de Datos (Data Base Management Systems - DBMSs) y sistemas de archivos de datos, relacionales o no. Estos filtros permiten a las herramientas de acceso a la informacin, acceder tambin a la data almacenada en sistemas de gestin de base de datos que tienen veinte aos de antigedad. El nivel de acceso a los datos no solamente conecta DBMSs diferentes y sistemas de archivos sobre el mismo hardware, sino tambin a los fabricantes y protocolos de red. Una de las claves de una estrategia data warehousing es proveer a los usuarios finales con "acceso a datos universales". El acceso a los datos universales significa que, tericamente por lo menos, los usuarios finales sin tener en cuenta la herramienta de acceso a la informacin o ubicacin, deberan ser capaces de acceder a cualquier o todos los datos en la empresa que es necesaria para ellos, para hacer su trabajo.

Data Wareouse

Pgina 8

El nivel de acceso a los datos entonces es responsable de la interfaces entre las herramientas de acceso a la informacin y las bases de datos operacionales. En algunos casos, esto es todo lo que un usuario final necesita. Sin embargo, en general, las organizaciones desarrollan un plan mucho ms sofisticado para el soporte del data warehousing.

Nivel de Directorio de Datos (Metadata)


A fin de proveer el acceso a los datos universales, es absolutamente necesario mantener alguna forma de directorio de datos o repositorio de la informacin metadata. La metadata es la informacin alrededor de los datos dentro de la empresa. Las descripciones de registro en un programa COBOL son metadata. Tambin lo son las sentencias DIMENSION en un programa FORTRAN o las sentencias a crear en SQL. A fin de tener un depsito totalmente funcional, es necesario tener una variedad de Metadata disponibles, informacin sobre las vistas de datos de los usuarios finales e informacin sobre las bases de datos operacionales. Idealmente, los usuarios finales deberan de acceder a los datos desde el data warehouse (o desde las bases de datos operacionales), sin tener que conocer dnde residen los datos o la forma en que se han almacenados.

Nivel de Gestin de Procesos


El nivel de gestin de procesos tiene que ver con la programacin de diversas tareas que deben realizarse para construir y mantener el data warehouse y la informacin del directorio de datos. Este nivel puede depender del alto nivel de control de trabajo para muchos procesos (procedimientos) que deben ocurrir para mantener el data warehouse actualizado.

Nivel de Mensaje de la Aplicacin


El nivel de mensaje de la aplicacin tiene que ver con el transporte de informacin alrededor de la red de la empresa. El mensaje de aplicacin se refiere tambin como "subproducto", pero puede involucrar slo protocolos de red. Puede usarse por ejemplo, para aislar aplicaciones operacionales o estratgicas a partir del formato de datos exacto, recolectar transacciones o los mensajes y entregarlos a una ubicacin segura en un tiempo seguro.

Nivel Data Warehouse (Fsico)


En el data warehouse (ncleo) es donde ocurre la data actual, usada principalmente para usos estratgicos. En algunos casos, uno puede pensar del data warehouse simplemente como Data Wareouse Pgina 9

una vista lgica o virtual de datos. En muchos ejemplos, el data warehouse puede no involucrar almacenamiento de datos. En un data warehouse fsico, copias, en algunos casos, muchas copias de datos operacionales y/o externos, son almacenados realmente en una forma que es fcil de acceder y es altamente flexible. Cada vez ms, los data warehouses son almacenados sobre plataformas cliente/servidor, pero por lo general se almacenan sobre mainframes.

Nivel de Organizacin de Datos


El componente final de la arquitectura data warehouse es la organizacin de los datos. Se llama tambin gestin de copia o rplica, pero de hecho, incluye todos los procesos necesarios como seleccionar, editar, resumir, combinar y cargar datos en el depsito y acceder a la informacin desde bases de datos operacionales y/o externas. La organizacin de datos involucra con frecuencia una programacin compleja, pero cada vez ms, estn crendose las herramientas data warehousing para ayudar en este proceso. Involucra tambin programas de anlisis de calidad de datos y filtros que identifican modelos y estructura de datos dentro de la data operacional existente.

Operaciones en un Data Warehouse


a) Sistemas Operacionales
Los datos administrados por los sistemas de aplicacin operacionales son la fuente principal de datos para el data warehouse. Las bases de datos operacionales se organizan como archivos indexados (UFAS, VSAM), bases de datos de redes/jerrquicas (I-D-S/II, IMS, IDMS) o sistemas de base de datos relacionales (DB2, Oracle, Informix, etc.). Segn las encuestas, aproximadamente del 70% a 80% de las bases de datos de las empresas se organizan usando DBMSs no relacional.

b) Extraccin, Transformacin y Carga de los Datos


Se requieren herramientas de gestin de datos para extraer datos desde bases de datos y/o archivos operacionales, luego es necesario manipular o transformar los datos antes de cargar los resultados en el data warehouse. Tomar los datos desde varias bases de datos operacionales y transformarlos en datos requeridos para el depsito, se refiere a la transformacin o a la integracin de datos. Las bases de datos operacionales, diseadas para el soporte de varias aplicaciones de produccin, frecuentemente difieren en el formato.

Data Wareouse

Pgina 10

Los mismos elementos de datos, si son usados por aplicaciones diferentes o administrados por diferentes software DBMS, pueden definirse al usar nombres de elementos inconsistentes, que tienen formatos inconsistentes y/o ser codificados de manera diferente. Todas estas inconsistencias deben resolverse antes que los elementos de datos sean almacenados en el data warehouse.

c) Metadata
Otro paso necesario es crear la metadata. La metadata (es decir, datos acerca de datos) describe los contenidos del data warehouse. La metadata consiste de definiciones de los elementos de datos en el depsito, sistema(s) del (os) elemento(s) fuente. Como la data, se integra y transforma antes de ser almacenada en informacin similar.

d) Acceso de usuario final


Los usuarios accesan al data warehouse por medio de herramientas de productividad basadas en GUI (Graphical User Interface - Interfase grfica de usuario). Pueden proveerse a los usuarios del data warehouse muchos de estos tipos de herramientas. Estos pueden incluir software de consultas, generadores de reportes, procesamiento analtico en lnea, herramientas data/visual mining, etc., dependiendo de los tipos de usuarios y sus requerimientos particulares. Sin embargo, una sola herramienta no satisface todos los requerimientos, por lo que es necesaria la integracin de una serie de herramientas.

e) Plataforma del data warehouse


La plataforma para el data warehouse es casi siempre un servidor de base de datos relacional. Cuando se manipulan volmenes muy grandes de datos puede requerirse una configuracin en bloque de servidores UNIX con multiprocesador simtrico (SMP) o un servidor con procesador paralelo masivo (MPP) especializado. Los extractos de la data integrada/transformada se cargan en el data warehouse. Uno de los ms populares RDBMSs disponibles para data warehousing sobre la plataforma UNIX (SMP y MPP) generalmente es Teradata. La eleccin de la plataforma es crtica. El depsito crecer y hay que comprender los requerimientos despus de 3 o 5 aos. Muchas de las organizaciones quieran o no escogen una plataforma por diversas razones: el Sistema X es nuestro sistema elegido o el Sistema Y est ya disponible sobre un sistema UNIX que nosotros ya tenemos. Uno de los errores ms grandes que las organizaciones cometen al seleccionar la plataforma, es que ellos presumen que el sistema (hardware y/o DBMS) escalar con los datos.

Data Wareouse

Pgina 11

El sistema de depsito ejecuta las consultas que se pasa a los datos por el software de acceso a los datos del usuario. Aunque un usuario visualiza las consultas desde el punto de vista de un GUI, las consultas tpicamente se formulan como pedidos SQL, porque SQL es un lenguaje universal y el estndar de hecho para el acceso a datos.

f) Datos Externos
Dependiendo de la aplicacin, el alcance del data warehouse puede extenderse por la capacidad de acceder a la data externa. Por ejemplo, los datos accesibles por medio de servicios de computadora en lnea (tales como CompuServe y America On Line) y/o va Internet, pueden estar disponibles a los usuarios del data warehouse. Evolucin del Depsito Construir un data warehouse es una tarea grande. No es recomendable emprender el desarrollo del data warehouse de la empresa como un proyecto cualquiera. Ms bien, se recomienda que los requerimientos de una serie de fases se desarrollen e implementen en modelos consecutivos que permitan un proceso de implementacin ms gradual e iterativo. No existe ninguna organizacin que haya triunfado en el desarrollo del data warehouse de la empresa, en un slo paso. Muchas, sin embargo, lo han logrado luego de un desarrollo paso a paso. Los pasos previos evolucionan conjuntamente con la materia que est siendo agregada. Los datos en el data warehouse no son voltiles y es un repositorio de datos de slo lectura (en general). Sin embargo, pueden aadirse nuevos elementos sobre una base regular para que el contenido siga la evolucin de los datos en la base de datos fuente, tanto en los contenidos como en el tiempo. Uno de los desafos de mantener un data warehouse, es idear mtodos para identificar datos nuevos o modificados en las bases de datos operacionales. Algunas maneras para identificar estos datos incluyen insertar fecha/tiempo en los registros de base de datos y entonces crear copias de registros actualizados y copiar informacin de los registros de transaccin y/o base de datos diarias. Estos elementos de datos nuevos y/o modificados son extrados, integrados, transformados y agregados al data warehouse en pasos peridicos programados. Como se aaden las nuevas ocurrencias de datos, los datos antiguos son eliminados. Por ejemplo, si los detalles de un sujeto particular se mantienen por 5 aos, como se agreg la ltima semana, la semana anterior es eliminada.

Data Wareouse

Pgina 12

Conclusin.
Vctor Jurez Cabrera. La verdad este tema me pareci muy interesante, mas por que se relaciona con las bases de datos. Me hubiera gustado que este tema lo u viramos profundizado mas y poder hacer un ejemplo real. Ojala que en un futuro lo podamos emplear en alguna situacin que se nos cruce. Por lo que vi es un tema muy extenso y creo que es muy competido. En lo personal creo que fue una buena experiencia. Josu Ramrez Dvila Con la realizacin de esta investigacin me he dado cuenta la amplia gama de tecnologas que existen ahora en da para una mejor administracin de las bases de datos distribuidas, ya que los datos se encuentran ms seguros. El concepto de DWH est teniendo una gran aplicacin en la actualidad para el desarrollo de las empresas, como almacn de datos. Sus objetivos incluyen la reduccin de los costes de almacenamiento y una mayor velocidad de respuesta frente a las consultas de los usuarios. Estos pueden ahora analizar y realizar preguntas sobre aos, ms que sobre meses de informacin.

Data Wareouse

Pgina 13