Está en la página 1de 18

DATAWAREHOUSING

INTRODUCCIN
La gestin administrativa reconoce que una manera de elevar su eficiencia est en hacer el mejor uso de los recursos de informacin que ya existen dentro de la organizacin. Para ello, el logro de ese objetivo depende fundamentalmente de su arquitectura actual, tanto de hardware como de software. El data warehouse, es actualmente, muy utilizado en las empresas porque provee un ambiente para que las organizaciones hagan un mejor uso de la informacin que est siendo administrada por diversas aplicaciones operacionales.

INTRODUCCION AL CONCEPTO DATA WAREHOUSING


Datawarehousing es el centro de la arquitectura para los sistemas de informacin en la dcada de los '90. Soporta el procesamiento informtico al proveer una plataforma slida, a partir de los datos histricos para hacer el anlisis. Facilita la integracin de sistemas de aplicacin no integrados. Organiza y almacena los datos que se necesitan para el procesamiento analtico, informtico sobre una amplia perspectiva de tiempo. Un DataWarehouse o Almacn de Datos es una coleccin de datos orientado a temas, integrado, no voltil, de tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales. Se puede caracterizar un DataWarehouse haciendo un contraste de cmo los datos de un negocio almacenados en un Datawarehouse, difieren de los datos operacionales usados por las aplicaciones de produccin.

Base de Datos Operacional Datos Operacionales Orientado a la aplicacin Informacin Actual Informacin Detallada Cambia continuamente

Datawarehouse Datos del negocio para Informacin Orientado al Individuo Informacin Actual + histrica Informacin detallada + ms resumida Es Estable

Diferentes tipos de informacin


El ingreso de datos en el DataWarehouse viene desde el ambiente operacional en casi todos los casos. El DataWarehouse es siempre un almacn de datos transformados y separados fsicamente de la aplicacin donde se encontraron los datos en el ambiente operacional. Reunir los elementos de datos apropiados desde diversas fuentes de aplicacin en un ambiente integral centralizado, simplifica el problema de acceso a la informacin y en consecuencia, acelera el proceso de anlisis, consultas y el menor tiempo de uso de la informacin. Las aplicaciones para soporte de decisiones basadas en un Datawarehouse, pueden hacer ms prctica y fcil la explotacin de datos para una mayor eficacia del negocio, que no se logra cuando se usan slo los datos que provienen de las aplicaciones operacionales (que ayudan en la operacin de la empresa en sus operaciones cotidianas), en los que la informacin se obtiene realizando procesos independientes y muchas veces complejos. Un DataWarehouse se crea al extraer datos desde una o ms bases de datos de aplicaciones operacionales. La data extrada es transformada para eliminar inconsistencias y resumir si es necesario y luego, cargadas en el Datawarehouse. El proceso de transformar, crear el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudan a crear el ambiente para el acceso a la informacin Institucional. Este nuevo enfoque ayuda a las personas individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con ms responsabilidad. La innovacin de la Tecnologa de Informacin dentro de un ambiente Datawarehouse, puede permitir a cualquier organizacin hacer un uso ms ptimo de los datos, como un ingrediente

clave para un proceso de toma de decisiones ms efectivo. Las organizaciones tienen que aprovechar sus recursos de informacin para crear la informacin de la operacin del negocio, pero deben considerarse las estrategias tecnolgicas necesarias para la implementacin de una arquitectura completa de Datawarehouse.

Definicin
El trmino DataWarehouse fue introducido por BILL INMON a principios de la dcada de los 90, quien lo defini como: Una coleccin de datos orientados a temas, integrado, variable en el tiempo y no voltil para ayudar al proceso de toma de decisiones gerenciales. Ralph Kimball define DataWarehouse de una manera ms sencilla y prctica: Es una copia de los datos transaccionales especficamente estructurados para consultas y anlisis. De acuerdo con W. H. lnmon, quien es considerado como el padre del Data Warehouse: Un DataWarehouse es un conjunto de datos integrados orientados a una material que varan con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de una administracin." De acuerdo con algunas organizaciones, el DataWarehouse es una arquitectura. Para otras, es un depsito semnticamente consistente en datos (separados y que no interfieren con los sistemas operativos y de produccin existentes) que Ilenan por completo los diferentes requerimientos de acceso y reporte de datos. Para algunos otros, el DataWarehouse es un proceso continuo que mezcla los datos de varias fuentes heterogneas, incluyendo datos histricos y adquiridos para soportar la constante necesidad de consultas estructuradas y/o ad hoc, reportes analticos y soporte de decisiones.

As como hay gran divergencia para establecer una definicin precisa de un DataWarehouse, hay un claro consenso de que la tecnologa del DataWarehouse es un ingrediente esencial en el conjunto de soluciones para el soporte de decisiones en una empresa.
Segn defini Bill Inmon, el DataWarehouse se caracteriza por ser:

Integrado: los datos almacenados en el DataWarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.

Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla del DataWarehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar.

Histrico: el tiempo es parte implcita de la informacin contenida en un DataWarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada en el DataWarehouse sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, el DataWarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones.

No voltil: el almacn de informacin de un DataWarehouse existe para ser ledo, y no modificado. La informacin es por tanto permanente, significando la actualizacin del DataWarehouse la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista.

Objetivos del Datawarehouse

Hace que la informacin de la organizacin sea accesible: los contenidos del DataWarehouse son entendibles y navegables, y el acceso a ellos son caracterizado por el rpido desempeo. Estos requerimientos no tienen fronteras y tampoco limites

fijos. Cuando hablamos de entendible significa, que los niveles de la informacin sean correctos y obvios. Y Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic. Rpido desempeo significa, cero tiempo de espera. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar.

Hacer que la informacin de la organizacin sea consistente: la informacin de una parte de la organizacin puede hacerse coincidir con la informacin de la otra parte de la organizacin. Si dos medidas de la organizacin tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Informacin consistente significa, informacin de alta calidad. Significa que toda la informacin es contabilizada y completada. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar.

Es informacin adaptable y elstica: el DataWarehouse est diseado para cambios continuos. Cuando se le hacen nuevas preguntas al DataWarehouse, los datos existentes y las tecnologas no cambian ni se corrompen. Cuando se agregan datos nuevos al DataWarehouse, los datos existentes y las tecnologas tampoco cambian ni se corrompen. El diseo de Datamarts separados que hacen al DataWarehouse, deben ser distribuidos e incrementados. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar.

Es un seguro baluarte que protege los valores de la informacin: el DataWarehouse no solamente controla el acceso efectivo a los datos, si no que da a los dueos de la informacin gran visibilidad en el uso y abusos de los datos, an despus de haber dejado el DataWarehouse. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar.

Es la fundacin de la toma de decisiones: el DataWarehouse tiene los datos correctos para soportar la toma de decisiones. Solo hay una salida verdadera del Data Warehouse: las decisiones que son hechas despus de que el DataWarehouse haya presentado las evidencias. La original etiqueta que preside el DataWarehouse sigue siendo la mejor descripcin de lo que queremos construir: un sistema de soporte a las decisiones.

Caractersticas del Datawarehouse


Entre sus principales caractersticas tenemos

Orientado al tema Integrado De tiempo variante No voltil

Orientado a temas
Una primera caracterstica del DataWarehouse es que la informacin se clasifica en base a los aspectos que son de inters para la empresa. Siendo as, los datos tomados estn en contraste con los clsicos procesos orientados a las aplicaciones. El ambiente operacional se disea alrededor de las aplicaciones y funciones tales como prstamos, ahorros, tarjeta bancaria y depsitos para una institucin financiera. Por ejemplo, una aplicacin de ingreso de rdenes puede acceder a los datos sobre clientes, productos y cuentas. La base de datos combina estos elementos en una estructura que acomoda las necesidades de la aplicacin. En el ambiente datawarehousing se organiza alrededor de sujetos tales como cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, stos pueden ser clientes, productos, proveedores y vendedores. Para una universidad pueden ser estudiantes, clases y profesores. Para un hospital pueden ser pacientes, personal mdico, medicamentos, etc. La alineacin alrededor de las reas de los temas afecta el diseo y la implementacin de los datos encontrados en el datawarehouse. Las principales reas de los temas influyen en la parte ms importante de la estructura clave. En la Figura se muestra el contraste entre los dos tipos de orientaciones.

Las aplicaciones estn relacionadas con el diseo de la base de datos y del proceso. En data warehousing se enfoca el modelamiento de datos y el diseo de la base de datos. El diseo del proceso (en su forma clsica) no es separado de este ambiente. Las diferencias entre la orientacin de procesos y funciones de las aplicaciones y la orientacin a temas, radican en el contenido de la data a escala detallada. En el DataWarehouse se excluye la informacin que no ser usada por el proceso de sistemas de soporte de decisiones, mientras que la informacin de las orientadas a las aplicaciones, contiene datos para satisfacer

de inmediato los requerimientos funcionales y de proceso, que pueden ser usados o no por el analista de soporte de decisiones. Otra diferencia importante est en la interrelacin de la informacin. Los datos operacionales mantienen una relacin continua entre dos o ms tablas basadas en una regla comercial que est vigente. Las del DataWarehouse miden un espectro de tiempo y las relaciones encontradas en el DataWarehouse son muchas. Muchas de las reglas comerciales (y sus correspondientes relaciones de datos) se representan en el datawarehouse, entre dos o ms tablas. Integrado Integra datos recolectados de diferentes sistemas operacionales de la organizacin y o fuentes externas.

El aspecto ms importante del ambiente DataWarehousing es que la informacin encontrada al interior est siempre integrada.

La integracin de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificacin de estructuras consistentes, en atributos fsicos de los datos consistentes, fuentes mltiples y otros. El contraste de la integracin encontrada en el DataWarehouse con la carencia de integracin del ambiente de aplicaciones, se muestran en la figura, con diferencias bien marcadas. A travs de los aos, los diseadores de las diferentes aplicaciones han tomado sus propias decisiones sobre cmo se debera construir una aplicacin. Los estilos y diseos personalizados se muestran de muchas maneras. Se diferencian en la codificacin, en las estructuras claves, en sus caractersticas fsicas, en las convenciones de nombramiento y otros. La capacidad colectiva de muchos de los diseadores de aplicaciones, para crear aplicaciones inconsistentes, es fabulosa. La Figura mencionada, muestra algunas de las diferencias ms importantes en las formas en que se disean las aplicaciones. Codificacin. Los diseadores de aplicaciones codifican el campo GNERO en varias formas. Un diseador representa GNERO como una "M" y una "F", otros como un "1" y un "0", otros como una "X" y una "Y" e inclusive, como "masculino" y "femenino". No importa mucho cmo el GNERO llega al DataWarehouse. Probablemente "M" y "F" sean tan buenas como cualquier otra representacin. Lo importante es que sea de cualquier fuente de donde venga, el GNERO debe llegar al DataWarehouse en un estado integrado uniforme.

Por lo tanto, cuando el GNERO se carga en el DataWarehouse desde una aplicacin, donde ha sido representado en formato "M" y "F", los datos deben convertirse al formato del datawarehouse. Medida de atributos. Los diseadores de aplicaciones miden las unidades de medida de las tuberas en una variedad de formas. Un diseador almacena los datos de tuberas en centmetros, otros en pulgadas, otros en millones de pies cbicos por segundo y otros en yardas.

Al dar medidas a los atributos, la transformacin traduce las diversas unidades de medida usadas en las diferentes bases de datos para transformarlas en una medida estndar comn. Cualquiera que sea la fuente, cuando la informacin de la tubera llegue al DataWarehouse necesitar ser medida de la misma manera.

Convenciones de Nombramiento. El mismo elemento es frecuentemente referido por nombres diferentes en las diversas aplicaciones. El proceso de transformacin asegura que se use preferentemente el nombre de usuario. Fuentes Mltiples. El mismo elemento puede derivarse desde fuentes mltiples. En este caso, el proceso de transformacin debe asegurar que la fuente apropiada sea usada, documentada y movida al depsito. Tal como se muestra en la figura, los puntos de integracin afectan casi todos los aspectos de diseo - las caractersticas fsicas de los datos, la disyuntiva de tener ms de una de fuente de datos, el problema de estndares de denominacin inconsistentes, formatos de fecha inconsistentes y otros. Cualquiera que sea la forma del diseo, el resultado es el mismo - la informacin necesita ser almacenada en el DataWarehouse en un modelo globalmente aceptable y singular, aun cuando los sistemas operacionales subyacentes almacenen los datos de manera diferente. Cuando el analista de sistema de soporte de decisiones observe el DataWarehouse, su enfoque deber estar en el uso de los datos que se encuentre en el depsito, antes que preguntarse sobre la confiabilidad o consistencia de los datos.

De tiempo variante (Variable en el tiempo)


Los datos son relativos a un periodo de tiempo y estos deben ser integrados peridicamente, los mismos son almacenados como fotos que se corresponden a un periodo de tiempo.

Toda la informacin del DataWarehouse es requerida en algn momento. Esta caracterstica bsica de los datos en un depsito, es muy diferente de la informacin encontrada en el ambiente operacional. En stos, la informacin se requiere al momento de acceder. En otras palabras, en el ambiente operacional, cuando usted accede a una unidad de informacin, usted espera que los valores requeridos se obtengan a partir del momento de acceso. Como la informacin en el DataWarehouse es solicitada en cualquier momento (es decir, no "ahora mismo"), los datos encontrados en el depsito se llaman de "tiempo variante". Los datos histricos son de poco uso en el procesamiento operacional. La informacin del depsito por el contraste, debe incluir los datos histricos para usarse en la identificacin y evaluacin de tendencias. (Ver Figura).

El tiempo variante se muestra de varias maneras: 1. La ms simple es que la informacin representa los datos sobre un horizonte largo de tiempo - desde cinco a diez aos. El horizonte de tiempo representado para el ambiente operacional es mucho ms corto - desde valores actuales hasta sesenta a noventa das. Las aplicaciones que tienen un buen rendimiento y estn disponibles para el procesamiento de transacciones, deben llevar una cantidad mnima de datos si tienen cualquier grado de flexibilidad. Por ello, las aplicaciones operacionales tienen un corto horizonte de tiempo, debido al diseo de aplicaciones rgidas.

2. La segunda manera en la que se muestra el tiempo variante en el DataWarehouse est en la estructura clave. Cada estructura clave en el DataWarehouse contiene, implcita o explcitamente, un elemento de tiempo como da, semana, mes, etc. El elemento de tiempo est casi siempre al pie de la clave concatenada, encontrada en el DataWarehouse. En ocasiones, el elemento de tiempo existir implcitamente, como el caso en que un archivo completo se duplica al final del mes, o al cuarto.

3. La tercera manera en que aparece el tiempo variante es cuando la informacin del Data Warehouse, una vez registrada correctamente, no puede ser actualizada. La informacin del DataWarehouse es, para todos los propsitos prcticos, una serie larga de "snapshots" (vistas instantneas). Por supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces pueden ser cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos no son alterados una vez hechos. En algunos casos puede ser no tico, e incluso ilegal, alterar los snapshots en el DataWarehouse. Los datos operacionales, siendo requeridos a partir del momento de acceso, pueden actualizarse de acuerdo a la necesidad. No voltil Los datos que son almacenados no sufren ninguna actualizacin solo son incrementados. El perodo cubierto para un DW va de 2 a 10 aos.

La informacin es til slo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva ms grande, esencial para el anlisis y la toma de decisiones, requiere una base de datos estable. En la Figura se muestra que la actualizacin (insertar, borrar y modificar), se hace regularmente en el ambiente operacional sobre una base de registro por registro. Pero la manipulacin bsica de los datos que ocurre en el DataWarehouse es mucho ms simple. Hay dos nicos

tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay actualizacin de datos (en el sentido general de actualizacin) en el depsito, como una parte normal de procesamiento. Hay algunas consecuencias muy importantes de esta diferencia bsica, entre el procesamiento operacional y del DataWarehouse. En el nivel de diseo, la necesidad de ser precavido para actualizar las anomalas no es un factor en el DataWarehouse, ya que no se hace la actualizacin de datos. Esto significa que en el nivel fsico de diseo, se pueden tomar libertades para optimizar el acceso a los datos, particularmente al usar la normalizacin y desnormalizacin fsica. Otra consecuencia de la simplicidad de la operacin del DataWarehouse est en la tecnologa subyacente, utilizada para correr los datos en el depsito. Teniendo que soportar la actualizacin de registro por registro en modo on-line (como es frecuente en el caso del procesamiento operacional) requiere que la tecnologa tenga un fundamento muy complejo debajo de una fachada de simplicidad.

Por qu construir un DataWarehouse?


Pueden darse algunas justificaciones para un emprendimiento de DataWarehouse:

Sistemas no integrados Mltiples e incompatibles estructuras de datos Muchos puntos de entrada a los datos Manejo de informacin histrica Para facilitar las actividades de reporteo y anlisis de usuarios Proveer una vista nica del negocio

DIFERENCIAS ENTRE UN SISTEMA TRADICIONAL Y UN DATAWAREHOUSE


Las diferencias de un DataWarehouse con un sistema tradicional las podramos resumir en el siguiente esquema: SISTEMA TRADICIONAL

DATAWAREHOUSE

Predomina la actualizacin La actividad ms importante es de tipo operativo (da a da) Predomina el proceso puntual Mayor importancia a la estabilidad Datos en general desagregados Importancia del dato actual Importante del tiempo de respuesta de la transaccin instantnea Estructura relacional Usuarios de perfiles medios o bajos Explotacin de la informacin relacionada con la operativa de cada aplicacin

Predomina la consulta La actividad ms importante es el anlisis y la decisin estratgica Predomina el proceso masivo Mayor importancia al dinamismo Datos en distintos niveles de detalle y agregacin Importancia del dato histrico Importancia de la respuesta masiva Visin multidimensional Usuarios de perfiles altos Explotacin de toda la informacin interna y externa relacionada con el negocio

Una de las claves del xito en la construccin de un DataWarehouse es el desarrollo de forma gradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente el almacn de datos a los dems usuarios. Por ello es importante elegir este usuario inicial o piloto, siendo importante que sea un departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo. Terminamos este apartado, resumiendo los beneficios que un DataWarehouse puede aportar:

Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin.

Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios.

Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente.

Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares.

También podría gustarte