Está en la página 1de 9

http://datawarehouse.ittoolbox.com/ http://es.babelfish.yahoo.com/translate_url?doit=done&tt=url&intl=1&fr=bfhome&trurl=http%3A%2F%2Fdatawarehouse.ittoolbox.

com %2F&lp=en_es&btnTrUrl=Traducir Datawarehouse: Gran almacn de datos de la empresa que permite que los datos operacionales sean accesibles de una forma adecuada al usuario final para el proceso analtico de CRM. Sistema de soporte a la decisin u otra aplicacin de usuario final. Ver tambin ... CRM
La administracin del almacn de datos implica la gerencia total de un almacn de datos. Las tareas de la administracin incluyen la funcionalidad de la indexacin de direcciones el archivar, de los cheques de consistencia, el convertirse/el mantener y de la recuperacin, siguiendo cambios de los datos, la migracin, la supervisin, ediciones de funcionamiento, ediciones de la rplica, calidad de los datos, y la gerencia del apresto/de espacio. Todos los almacenes de datos deben tambin tener un plan de reserva y de recuperacin en el lugar para poder recuperarse datos despus de una emergencia

Data WareHouse
1. 2. 3. 4. 5. Introduccin Los objetivos fundamentales de un Data WareHouse Los elementos bsicos de un Data WareHouse Los procesos bsicos del Data WareHouse (ETL) Bibliografa

1. Introduccin Que es un Data WareHouse? Es un repositorio de datos de muy fcil acceso, alimentado de numerosas fuentes, transformadas en grupos de informacin sobre temas especficos de negocios, para permitir nuevas consultas, anlisis, reporteador y decisiones. Que es lo que le preocupa a los ejecutivos? Se tienen montaas de datos en la compaa, pero no podemos llegar a ellos adecuadamente. Nada enloquece ms a los ejecutivos que dos personas presentando el mismo resultado de operacin pero con diferentes nmeros y los ejecutivos lo que buscan es ver la informacin pero desde diferentes ngulos, mostrando nicamente lo que es importante para tomar una decisin en la empresa, finalmente los ejecutivos saben que hay datos que nunca sern confiables, por lo que prefieren que se eviten en los reportes ejecutivos.

Uno de los valores ms importantes de una organizacin es la informacin. Estos valores normalmente son guardados por la organizacin de dos formas: Los sistemas operacionales de registros Y el Data Warehouse

Crudamente hablando, los sistema operacionales de registros es donde los datos son depositados y el Data WareHouse es de donde se extraen eso datos. Los objetivos fundamentales de un Data WareHouse son: Hace que la informacin de la organizacin sea accesible: los contenidos del Data WareHouse son entendibles y navegables, y el acceso a ellos son caracterizado por el rpido desempeo. Estos requerimientos no tienen fronteras y tampoco limites fijos. Cuando hablamos de entendible significa, que los niveles de la informacin sean correctos y obvios. Y Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic. Rpido desempeo significa, cero tiempo de espera. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Hacer que la informacin de la organizacin sea consistente: la informacin de una parte de la organizacin puede hacerse coincidir con la informacin de la otra parte de la organizacin. Si dos medidas de la organizacin tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Informacin consistente significa, informacin de alta calidad. Significa que toda la informacin es contabilizada y completada. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es informacin adaptable y elstica: el Data WareHouse esta diseado para cambios continuos. Cuando se le hacen nuevas preguntas al Data WareHouse, los datos existentes y las tecnologas no cambian ni se corrompen. Cuando se agregan datos nuevos al Data WareHouse, los datos existentes y las tecnologas tampoco cambian ni se corrompen. El diseo de Data Marts separados que hacen al Data WareHouse, deben ser distribuidos e incrementados. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es un seguro baluarte que protege los valores de la informacin: el Data WareHouse no solamente controla el acceso efectivo a los datos, si no que da a los dueos de la informacin gran visibilidad en el uso y abusos de los

datos, an despus de haber dejado el Data WareHouse. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es la fundacin de la toma de decisiones: el Data WareHouse tiene los datos correctos para soportar la toma de decisiones. Solo hay una salida verdadera del Data WareHouse: las decisiones que son hechas despus de que el Data WareHouse haya presentado las evidencias. La original etiqueta que preside el Data WareHouse sigue siendo la mejor descripcin de lo que queremos construir: un sistema de soporte a las decisiones. Los elementos bsicos de un Data WareHouse Sistema fuente: sistemas operacionales de registros donde sus funciones son capturar las transacciones del negocio. A los sistemas fuentes tambin se le conoce como Legacy System. rea de trafico de datos: es un rea de almacenamiento y grupo de procesos, que limpian transforman, combinan, remover los duplicados, guardan, archivan y preparan los datos fuente para ser usados en el Data WareHouse. Servidor de presentacin: la maquina fsica objetivo en donde los datos del Data WareHouse son organizados y almacenados para queries directos por los usuarios finales, reportes y otras aplicaciones. Modelo dimensional: una disciplina especifica para el modelado de datos que es una alternativa para los modelos de entidad relacin. Procesos de negocios: un coherente grupo de actividades de negocio que hacen sentido a los usuarios del negocio del Data WareHouse. Data Mart: un subgrupo lgico del Data WareHouse completo. Data WareHouse: bsquedas fuentes de datos de la empresa. Y es la unin de todos los data marts que la constituyen. Almacenamiento operacional de datos: es el punto de integracin por los sistemas operacionales. Es el acceso al soporte de decisiones por los ejecutivos. OLAP: actividad general de bsquedas para presentacin de texto y nmeros del Data WareHouse, tambin un estilo dimensional especifico de bsquedas y presentacin de informacin y que es ejemplificada por vendedores de OLAP. ROLAP: un grupo de interfases de usuarios y aplicaciones que le dan a la base de datos relacional un estilo dimensional. MOLAP: un grupo de interfases de usuarios, aplicaciones y propietarios de tecnologa de bases de datos que tienen un fuerte estilo dimensional.

Aplicaciones para usuarios finales: una coleccin de herramientas que hacen los queries, analizan y presentan la informacin objetivo para el soporte de las necesidades del negocio. Herramientas de acceso a datos por usuarios finales: un cliente de Data WareHouse. Ad Hoc Query Tool: un tipo especifico de herramientas de acceso a datos por usuarios finales que invita al usuario a formas sus propios queries manipulando directamente las tablas relacionales y sus uniones. Modelado de aplicaciones: un sofisticado tipo de cliente de Data WareHouse con capacidades analticas que transforma o digiere las salidas del Data WareHouse. Meta Data: toda la informacin en el ambiente del Data WareHouse que no son as mismo los datos actuales.

Los procesos bsicos del Data WareHouse (ETL) Extraccin: este es el primer paso de obtener la informacin hacia el ambiente del Data WareHouse. Transformacin: una vez que la informacin es extrada hacia el rea de trafico de datos, hay posibles paso de transformacin como; limpieza de la informacin, tirar la basura que no nos sirve, seleccionar nicamente los campos necesarios para el Data WareHouse, combinar fuentes de datos, hacindolas coincidir por los valores de las llaves, creando nuevas llaves para cada registro de una dimensin. Carga: al final del proceso de transformacin, los datos estn en forma para ser cargados.

Las razones bsicas de porque una organizacin implementa Data WareHouse: Para realizar tareas en los servidores y discos, asociados a queries y reportes en servidores y discos que no son utilizados por sistemas de proceso de transacciones. Muchas de las empresas quieren instalar sistemas de procesos de transacciones para que haya una alta probabilidad de que las transacciones sean completadas en un tiempo razonable. Estos sistemas de procesos de transacciones hacen que las transacciones y peticiones sean ms rpidas en menores tiempos dado a que los queries y reportes consumen mucho ms de su lmite permitido en los recursos de servidores y discos, por tal motivo las empresas han implementado una arquitectura de Data WareHouse que utiliza sus servidores y discos por separado para algunos de los queries y reportes. Para utilizar modelos de datos o tecnologas de servidores que agilizan los queries y reportes, y que no son apropiados para los procesos de transacciones. Existen maneras de modelar los datos que usualmente agilizan los queries y reportes (ejemplo: el esquema del modelo estrella) y que no son apropiados para los procesos de transacciones porque la tcnica de modelado bajara el rendimiento y complicara el proceso de transacciones. Tambin existen tecnologas que aceleran el proceso de queries y reportes pero baja la velocidad en el proceso de transacciones (ejemplo: la indexacin de bitmaps) y tecnologa de servidores que incrementan la velocidad en el proceso de transacciones, pero que disminuyen la velocidad del proceso de queries y reportes (ejemplo: La tecnologa de recuperacin de transacciones). Todo esto entonces esta en el cmo se hacen los modelos de datos y que tecnologa se utiliza, inclusive que productos se adquieren para el impacto de los procesos de queries y reportes. Para proveer un ambiente donde relativamente una muy poca cantidad de conocimiento de los aspectos tcnicos de tecnologa de bases de datos es requerida para escribir y mantener queries y reportes. Frecuentemente un Data WareHouse puede ser instalado de manera que los queries y reportes puedan ser escritos por personal sin tanto conocimiento tcnico, lo que hace que su mantenimiento y construccin se haga sin ms complejidad.

Para proveer un repositorio del sistema de proceso de transacciones limpio que puede ser reportado y que no necesariamente requiere que se arregle el sistema de proceso de transacciones. El Data WareHouse provee la oportunidad de limpiar los datos sin cambiar los sistemas de proceso de transacciones, sin embargo algunas implementaciones de Data WareHouse provee el significado para capturar las correcciones hechas a los datos del Data WareHouse y alimenta las correcciones hacia el sistema de proceso de transacciones. Muchas veces hace ms sentido hacer las correcciones de esta manera que aplicar las correcciones directamente al sistema de proceso de transacciones. Para hacer los queries y reportes de datos bsicamente ms fcil de los mltiples procesos de transacciones y de las fuentes externas y de los datos que deben ser almacenados solamente para el propsito de hacer queries y reportes. Desde hace mucho tiempo que las compaas necesitan reportes con informacin de mltiples sistemas y han hecho extracciones de datos para despus correrlos bajo la lgica de bsqueda combinando la informacin de las extracciones con los reportes generados, lo que en muchas ocasiones es una buena estrategia. Pero cuando se tienen muchos datos y las bsquedas se vuelven muy pesadas y despus limpiar la bsqueda, entonces lo apropiado sera un Data WareHouse. Bibliografa Laudon Keneth C., Laudon Jane P. , Sistemas de Informacin Gerencial (8 ed.) Mxico, Pearson Educacin, (2004) http://www.dwinfocenter.org/casefor.html http://datawarehouse.ittoolbox.com/ Ralph Kimball, Laua Reeves, Margy Ross, Warren ....The Data WareHouse Lifecycle Toolkit Wiley Edition

Conceptos del almacn de datos


Cul es un almacn de datos? Segn Inmon, el autor famoso para varios libros del almacn de datos, un almacn de datos es un tema orientado, integrado, variante del tiempo, recogida de datos no voltil en apoyo del procedimiento de toma de decisin de la gerencia. Ejemplo: Para almacenar datos, durante los aos, muchos diseadores de uso en cada rama han tomado sus decisiones individuales en cuanto a cmo un uso y una base de datos deben ser construidos. Los sistemas de la fuente sern tan diferentes en convenciones de nombramiento, estructuras variables de las medidas, de la codificacin, y cualidades fsicas de datos. Considere un banco que tenga varias ramas en varios pases, tiene millones de clientes y las lneas de negocio de la empresa son ahorros, y prstamos. El ejemplo siguiente explica cmo los datos son integrados de sistemas de la fuente a los sistemas de blanco. Ejemplo de los datos de fuente Nombre de sistema Nombre de la cualidad Nombre de columna Datatype Valores Sistema 1 de la fuente Fecha del uso del cliente CUSTOMER_APPLICATION_DATE NUMRICO (8.0) 11012005 Sistema 2 de la fuente Fecha del uso del cliente CUST_APPLICATION_DATE FECHA 11012005 Sistema 3 de la fuente Fecha del uso APPLICATION_DATE FECHA de noviembre de 2005

En el ejemplo ya mencionado, el nombre de la cualidad, el nombre de columna, el datatype y los valores son enteramente diferentes a partir de un sistema de la fuente a otro. Esta inconsistencia en datos puede ser evitada integrando los datos en un almacn de datos con buenos estndares. Ejemplo de los datos de la blanco (almacn de datos) Sistema de blanco Nombre de la cualidad Nombre de columna Datatype Valores #1 de registro Fecha del uso del cliente CUSTOMER_APPLICATION_DATE FECHA 01112005 #2 de registro Fecha del uso del cliente CUSTOMER_APPLICATION_DATE FECHA 01112005 #3 de registro Fecha del uso del cliente CUSTOMER_APPLICATION_DATE FECHA 01112005 En el ejemplo antedicho de los datos de la blanco, los nombres de la cualidad, los nombres de columna, y los tipos de datos son constantes a travs del sistema de blanco. ste es cmo los datos de varios sistemas de la fuente son integrados y almacenados exactamente en el almacn de datos [corrija]

Almacn de datos y centro comercial de datos


Un almacn de datos es una base de datos emparentada/multidimensional que se disea para la pregunta y el anlisis algo que el tratamiento transaccional. Un almacn de datos contiene generalmente los datos histricos que se derivan de datos de la transaccin. Separa carga de trabajo del anlisis de carga de trabajo de la transaccin y permite a un negocio consolidar datos de varias fuentes. Adems de una base de datos emparentada/multidimensional, un ambiente del almacn de datos consiste en a menudo una solucin de ETL, un motor de OLAP, las herramientas de anlisis del cliente, y otros usos que manejen el proceso de recopilar datos y de entregarlos a los usuarios empresariales. Hay tres tipos de almacenes de datos:

1. Almacn de datos de la empresa - un almacn de datos de la empresa proporciona una base de datos central para la ayuda de decisin a travs de la empresa. 2. El ODS (almacn operacional) de los datos - ste tiene un alcance a nivel empresarial amplio, pero desemejante del almacn de datos verdadero del entertprise, los datos se restauran en tiempo real cercano y se utilizan para la actividad econmica rutinaria. Uno de los usos tpicos del ODS (almacn operacional de los datos) es llevar a cabo los datos recientes antes de la migracin a los datos Warehouse.Typically, el ODS no es conceptual equivalente al almacn de datos no obstante almacena los datos que tienen un nivel ms profundo de la historia que el de los datos de OLTP. 3. Centro comercial de datos - Datamart es un subconjunto de almacn de datos y apoya una regin, una unidad de negocio o una funcin de negocio particular. Los almacenes de datos y los centros comerciales de datos se emplean el modelado de datos dimensional donde las tablas del hecho estn conectadas con las tablas de la dimensin. Esto es la ms til para que los usuarios tengan acceso a datos puesto que una base de datos se puede visualizar como cubo de varias dimensiones. Un almacn de datos proporciona una oportunidad para rebanar y cortar ese cubo en cuadritos a lo largo de cada uno de sus dimensiones. Centro comercial de datos: Un centro comercial de datos es un subconjunto de almacn de datos que se disee para una lnea de negocio particular, tal como ventas, comercializacin, o finanzas. En un centro comercial de datos dependiente, los datos se pueden derivar de un almacn de datos a nivel empresarial. En un centro comercial de datos independiente, los datos se pueden recoger directamente de fuentes. Cuadro 1.12: Almacn de datos y Datamarts [corrija]

Informacin de carcter general


Un objetivo de organizacin es generalmente ganar el dinero vendiendo un producto o proporcionando servicio al producto. Una organizacin puede estar en un lugar o puede tener varias ramas. Cuando consideramos un ejemplo de una organizacin que vende el throughtout de los productos el mundo, las cuatro dimensiones principales principales son producto, localizacin, tiempo y organizacin. Las tablas de la dimensin se han explicado detalladamente bajo dimensiones de la seccin. Con este ejemplo, intentaremos proporcionar la explicacin detallada sobre ESQUEMA de la ESTRELLA. [corrija]

Cul es esquema de la estrella?


El esquema de la estrella es un esquema de la base de datis relacional para representar datos multidimensionales. Es la forma ms simple de esquema del almacn de datos que contenga una o ms tablas de las dimensiones y del hecho. Se llama un esquema de la estrella porque el diagrama de la entidad-relacin entre las dimensiones y las tablas del hecho se asemeja a una estrella donde una tabla del hecho est conectada con las dimensiones mltiples. El centro del esquema de la estrella consiste en una tabla grande del hecho y seala hacia las tablas de la dimensin. La ventaja del esquema de la estrella est rebanando abajo, aumento del funcionamiento y comprensin fcil de datos. Pasos en el diseo del esquema de la estrella Identifique un proceso de negocio para el anlisis (como ventas). Identifique las medidas o los hechos (dlar de las ventas). Identifique las dimensiones para los hechos (dimensin del producto, dimensin de la localizacin, dimensin del tiempo, dimensin de la organizacin). Enumere las columnas que describen cada dimensin. (nombre de la regin, nombre de rama, nombre de la regin).

Determine el nivel ms bajo del resumen en una tabla del hecho (dlar de las ventas).

Aspectos importantes del esquema de la estrella y del esquema de la escama de la nieve En un esquema de la estrella cada dimensin tendr una llave primaria. En un esquema de la estrella, una tabla de la dimensin no tendr ninguna tabla del padre. Considerando que en un esquema de la escama de la nieve, una tabla de la dimensin tendr una o ms tablas del padre. Las jerarquas para las dimensiones se almacenan en la tabla dimensional s mismo en esquema de la estrella. Considerando que las jerarquas estn rotas en las tablas separadas en esquema de la escama de la nieve. Estas jerarquas ayudan a perforar abajo de los datos de jerarquas superiores a las jerarquas ms ms bajas.

También podría gustarte