Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Data Warehousing
Data Warehousing
http://www.programacion.com/bbdd/tutorial/warehouse/
Indice de contenidos
Introduccin
Introduccin al Concepto Data Warehousing
Sistemas de Informacin
Caractersticas de un Data Warehouse
o Orientado a Temas
o Integracin
o De Tiempo Variante
o De Tiempo Variante
Estructura del Data Warehouse
Arquitectura de un Data Warehouse
o Elementos constituyentes de una Arquitectura Data Warehouse
Base de datos operacional / Nivel de base de datos
externo
Nivel de acceso a la informacin
Nivel de acceso a los datos
Nivel de Directorio de Datos (Metadata)
Nivel de Gestin de Procesos
Nivel de Mensaje de la Aplicacin
Nivel Data Warehouse (Fsico)
Nivel de Organizacin de Datos
o Operaciones en un Data Warehouse
Sistemas Operacionales
Extraccin, Transformacin y Carga de los Datos
Metadata
Acceso de usuario final
Plataforma del data warehouse
Datos Externos
o Evolucin del Depsito
Transformacion de Datos y Metadata
o Transformacin de Datos
o Metadata
Flujo de Datos
Medios de Almacenamiento para Informacion Antigua
Usos del Data Warehouse
Consideraciones Adicionales
Ejemplo de un Data Warehouse
Excepciones en el Data Warehouse
Organizacin de un proyecto
o Factores en la Planificacion de un Data Warehouse
o Estrategias para el Desarrollo de un Data Warehouse
o Estrategias para el Diseo de un Data Warehouse
o Estrategias para el Gestion de un Data Warehouse
Desarrollo de un proyecto
o
o
Introduccin
Desde que se inici la era de la computadora, las organizaciones han usado
los datos desde sus sistemas operacionales para atender sus necesidades
de informacin. Algunas proporcionan acceso directo a la informacin
contenida dentro de las aplicaciones operacionales. Otras, han extrado los
datos desde sus bases de datos operacionales para combinarlos de varias
formas no estructuradas, en su intento por atender a los usuarios en sus
necesidades de informacin.
Ambos mtodos han evolucionado a travs del tiempo y ahora las
organizaciones manejan una data no limpia e inconsistente, sobre las
cuales, en la mayora de las veces, se toman decisiones importantes.
La gestin administrativa reconoce que una manera de elevar su eficiencia
est en hacer el mejor uso de los recursos de informacin que ya existen
dentro de la organizacin. Sin embargo, a pesar de que esto se viene
intentando desde hace muchos aos, no se tiene todava un uso efectivo de
los mismos.
La razn principal es la manera en que han evolucionado las computadoras,
basadas en las tecnologas de informacin y sistemas. La mayora de las
organizaciones hacen lo posible por conseguir buena informacin, pero el
logro de ese objetivo depende fundamentalmente de su arquitectura actual,
tanto de hardware como de software.
El data warehouse, es actualmente, el centro de atencin de las grandes
instituciones, porque provee un ambiente para que las organizaciones
hagan un mejor uso de la informacin que est siendo administrada por
diversas aplicaciones operacionales.
Data Warehouse
Datos del negocio para Informacin
Orientado al sujeto
Actual + histrico
Detallada + ms resumida
Estable
De Tiempo Variante
Orientado al tema
Integrado
De tiempo variante
No voltil
Orientado a Temas
Medida de atributos
Los diseadores de aplicaciones miden las unidades de medida de las
tuberas en una variedad de formas. Un diseador almacena los datos de
tuberas en centmetros, otros en pulgadas, otros en millones de pies
cbicos por segundo y otros en yardas.
Al dar medidas a los atributos, la transformacin traduce las diversas
unidades de medida usadas en las diferentes bases de datos para
transformarlas en una medida estndar comn.
Cualquiera que sea la fuente, cuando la informacin de la tubera llegue al
data warehouse necesitar ser medida de la misma manera.
Convenciones de Nombramiento
El mismo elemento es frecuentemente referido por nombres diferentes en
las diversas aplicaciones. El proceso de transformacin asegura que se use
preferentemente el nombre de usuario.
Fuentes Mltiples
El mismo elemento puede derivarse desde fuentes mltiples. En este caso,
el proceso de transformacin debe asegurar que la fuente apropiada sea
usada, documentada y movida al depsito.
Tal como se muestra en la figura, los puntos de integracin afectan casi
todos los aspectos de diseo - las caractersticas fsicas de los datos, la
disyuntiva de tener ms de una de fuente de datos, el problema de
estndares de denominacin inconsistentes, formatos de fecha
inconsistentes y otros.
Cualquiera que sea la forma del diseo, el resultado es el mismo - la
informacin necesita ser almacenada en el data warehouse en un modelo
globalmente aceptable y singular, aun cuando los sistemas operacionales
subyacentes almacenen los datos de manera diferente.
Cuando el analista de sistema de soporte de decisiones observe el data
warehouse, su enfoque deber estar en el uso de los datos que se
encuentre en el depsito, antes que preguntarse sobre la confiabilidad o
consistencia de los datos.
De Tiempo Variante
Toda la informacin del data warehouse es requerida en algn momento.
Esta caracterstica bsica de los datos en un depsito, es muy diferente de
la informacin encontrada en el ambiente operacional. En stos, la
informacin se requiere al momento de acceder. En otras palabras, en el
De Tiempo Variante
La informacin es til slo cuando es estable. Los datos operacionales
cambian sobre una base momento a momento. La perspectiva ms grande,
esencial para el anlisis y la toma de decisiones, requiere una base de datos
estable.
En la Figura N 4 se muestra que la actualizacin (insertar, borrar y
modificar), se hace regularmente en el ambiente operacional sobre una
base de registro por registro. Pero la manipulacin bsica de los datos que
ocurre en el data warehouse es mucho ms simple. Hay dos nicos tipos de
operaciones: la carga inicial de datos y el acceso a los mismos. No hay
actualizacin de datos (en el sentido general de actualizacin) en el
depsito, como una parte normal de procesamiento.
Hay algunas consecuencias muy importantes de esta diferencia bsica,
entre el procesamiento operacional y del data warehouse. En el nivel de
diseo, la necesidad de ser precavido para actualizar las anomalas no es un
factor en el data warehouse, ya que no se hace la actualizacin de datos.
Esto significa que en el nivel fsico de diseo, se pueden tomar libertades
para optimizar el acceso a los datos, particularmente al usar la
normalizacin y desnormalizacin fsica.
Otra consecuencia de la simplicidad de la operacin del data warehouse est
en la tecnologa subyacente, utilizada para correr los datos en el depsito.
Teniendo que soportar la actualizacin de registro por registro en modo online (como es frecuente en el caso del procesamiento operacional) requiere
que la tecnologa tenga un fundamento muy complejo debajo de una
fachada de simplicidad.
Uno de los adelantos claves de los ltimos aos ha sido el desarrollo de una
serie de "filtros" de acceso a datos, tales como EDA/SQL para acceder a casi
todo los Sistemas de Gestin de Base de Datos (Data Base Management
Systems - DBMSs) y sistemas de archivos de datos, relacionales o no. Estos
filtros permiten a las herramientas de acceso a la informacin, acceder
tambin a la data almacenada en sistemas de gestin de base de datos que
tienen veinte aos de antigedad.
El nivel de acceso a los datos no solamente conecta DBMSS diferentes y
sistemas de archivos sobre el mismo hardware, sino tambin a los
fabricantes y protocolos de red. Una de las claves de una estrategia data
warehousing es proveer a los usuarios finales con "acceso a datos
universales".
El acceso a los datos universales significa que, tericamente por lo menos,
los usuarios finales sin tener en cuenta la herramienta de acceso a la
informacin o ubicacin, deberan ser capaces de acceder a cualquier o
todos los datos en la empresa que es necesaria para ellos, para hacer su
trabajo.
El nivel de acceso a los datos entonces es responsable de la interfaces entre
las herramientas de acceso a la informacin y las bases de datos
operacionales. En algunos casos, esto es todo lo que un usuario final
necesita. Sin embargo, en general, las organizaciones desarrollan un plan
mucho ms sofisticado para el soporte del data warehousing.
Nivel de Directorio de Datos (Metadata)
A fin de proveer el acceso a los datos universales, es absolutamente
necesario mantener alguna forma de directorio de datos o repositorio de la
informacin metadata. La metadata es la informacin alrededor de los datos
dentro de la empresa.
Las descripciones de registro en un programa COBOL son metadata.
Tambin lo son las sentencias DIMENSION en un programa FORTRAN o las
sentencias a crear en SQL.
A fin de tener un depsito totalmente funcional, es necesario tener una
variedad de metadata disponibles, informacin sobre las vistas de datos de
los usuarios finales e informacin sobre las bases de datos operacionales.
Idealmente, los usuarios finales deberan de acceder a los datos desde el
data warehouse (o desde las bases de datos operacionales), sin tener que
conocer dnde residen los datos o la forma en que se han almacenados.
Nivel de Gestin de Procesos
El nivel de gestin de procesos tiene que ver con la programacin de
diversas tareas que deben realizarse para construir y mantener el data
warehouse y la informacin del directorio de datos. Este nivel puede
depender del alto nivel de control de trabajo para muchos procesos
Sistemas Operacionales
Los datos administrados por los sistemas de aplicacin operacionales son la
fuente principal de datos para el data warehouse.
Las bases de datos operacionales se organizan como archivos indexados
(UFAS, VSAM), bases de datos de redes/jerrquicas (I-D-S/II, IMS, IDMS) o
sistemas de base de datos relacionales (DB2, ORACLE, INFORMIX, etc.).
Segn las encuestas, aproximadamente del 70% a 80% de las bases de
datos de las empresas se organizan usando DBMSS no relacional.
Extraccin, Transformacin y Carga de los Datos
Se requieren herramientas de gestin de datos para extraer datos desde
bases de datos y/o archivos operacionales, luego es necesario manipular o
transformar los datos antes de cargar los resultados en el data warehouse.
Tomar los datos desde varias bases de datos operacionales y transformarlos
en datos requeridos para el depsito, se refiere a la transformacin o a la
integracin de datos. Las bases de datos operacionales, diseadas para el
soporte de varias aplicaciones de produccin, frecuentemente difieren en el
formato.
Los mismos elementos de datos, si son usados por aplicaciones diferentes o
administrados por diferentes software DBMS, pueden definirse al usar
nombres de elementos inconsistentes, que tienen formatos inconsistentes
y/o ser codificados de manera diferente. Todas estas inconsistencias deben
resolverse antes que los elementos de datos sean almacenados en el data
warehouse.
Metadata
Metadata
El modelo de datos del data warehouse (es decir, los elementos de datos y
sus relaciones).
Un registro de cuando los nuevos elementos de datos se agregan al data
warehouse y cuando los elementos de datos antiguos se eliminan o se
resumen.
Los niveles de sumarizacin, el mtodo de sumarizacin y las tablas de
registros de su data warehouse.
Algunas implementaciones de la metadata tambin incluyen definiciones de
la(s) vista(s) presentada(s) a los usuarios del data warehouse. Tpicamente,
se definen vistas mltiples para favorecer las preferencias variadas de
diversos grupos de usuarios. En otras implementaciones, estas
descripciones se almacenan en un Catlogo de Informacin.
Los esquemas y subesquemas para bases de datos operacionales, forman
una fuente ptima de entrada cuando se crea la metadata. Hacer uso de la
documentacin existente, especialmente cuando est disponible en forma
electrnica, puede acelerar el proceso de definicin de la metadata del
ambiente data warehousing.
La metadata sirve, en un sentido, como el corazn del ambiente data
warehousing. Crear definiciones de metadata completa y efectiva puede ser
un proceso que consuma tiempo, pero lo mejor de las definiciones y si usted
usa herramientas de gestin de software integrado, son los esfuerzos que
darn como resultado el mantenimiento del data warehouse.
Flujo de Datos
Existe un flujo de datos normal y predecible dentro del data warehouse. La
Figura N 10 muestra ese flujo.
Los datos ingresan al data warehouse desde el ambiente operacional. (Hay
pocas excepciones a esta regla).
Al ingresar al data warehouse, la informacin va al nivel de detalle actual,
tal como se muestra. Se queda all y se usa hasta que ocurra uno de los
tres eventos siguientes:
Sea eliminado
Sea resumido
Sea archivado
Consideraciones Adicionales
Hay algunas consideraciones adicionales que deben tenerse en cuenta al
construir y administrar el data warehouse.
La primera consideracin es respecto al ndice. La informacin de los niveles
de esquematizacin ms altos pueden ser libremente indexados, mientras
que las de los niveles ms bajos de detalle, por ser tan voluminosa, pueden
ser indexados moderadamente.
Por lo mismo, los datos en los niveles ms altos de detalle pueden ser
reestructurados fcilmente, mientras que el volumen de datos en los niveles
ms inferiores es tan grande, que los datos no pueden ser fcilmente
reestructurados.
Por consiguiente, el modelo de datos y el diseo clsico fundamentan que el
data warehouse se aplique casi exclusivamente al nivel actual de detalle. En
Para los diferentes tipos de tablas hay diferentes unidades de tiempo que
fsicamente dividen las unidades de informacin. El histrico de fabricacin
est dividido por trimestres, el histrico de la orden de piezas est dividido
por aos y el histrico de cliente es un archivo nico, no dividido por el
tiempo.
As tambin, las diferentes tablas son vinculadas por medio de un
identificador comn, piezas u rdenes de piezas (la representacin de la
interrelacin en el ambiente de depsito toma una forma muy diferente al
de otros ambientes, tal como el ambiente operacional).
El medio donde se almacena la data debe ser tan seguro como sea
posible.
Los datos deben permitir ser restaurados.
Los datos necesitan un tratamiento especial en su indexacin, ya que
de otra manera los datos pueden no ser accesibles aunque se haya
almacenado con mucha seguridad.
Organizacin de un proyecto
o Factores en la Planificacion de un Data Warehouse
o Estrategias para el Desarrollo de un Data Warehouse
o Estrategias para el Diseo de un Data Warehouse
o
Organizacin de un proyecto
La planificacin es el proceso ms importante que determina la clase de tipo
de estrategias data warehousing que una organizacin iniciar.
Factores en la Planificacion de un Data Warehouse
No existe una frmula de garanta real para el xito de la construccin de
un data warehouse, pero hay muchos puntos que contribuyen a ese
objetivo.
A continuacin, se indican algunos puntos claves que deben considerarse en
la planificacin de un data warehouse:
Establecer una asociacin de usuarios, gestin y grupos
Es esencial involucrar tanto a los usuarios como a la gestin para
asegurar que el data warehouse contenga informacin que satisfaga
los requerimientos de la empresa.
La gestin puede ayudar a priorizar la fase de la implementacin del
data warehouse, as como tambin la seleccin de herramientas del
usuario. Los usuarios y la gestin justifican los costos del data
warehouse sobre cmo ser "su ambiente" y est basado primero en
lo esperado y segundo, en el valor comercial real.
Seleccionar una aplicacin piloto con una alta probabilidad de xito
Una aplicacin piloto de alcance limitado, con un reembolso medible
para los usuarios y la gestin, establecer el data warehouse como
Quin es el auditorio?
Cul es el alcance?
Qu tipo de data warehouse debera construirse?
Segunda
Construir una copia de los datos operacionales desde un sistema
operacional nico y posibilitar al data warehouse de una serie de
herramientas de acceso a la informacin.
Esta estrategia tiene la ventaja de ser simple y rpida.
Desafortunadamente, si los datos existentes son de mala calidad y/o
el acceso a los datos no ha sido previamente evaluado, entonces se
puede crear una serie de problemas.
Tercera
Finalmente, la estrategia data warehousing ptima es seleccionar el
nmero de usuarios basados en el valor de la empresa y hacer un
anlisis de sus puntos, preguntas y necesidades de acceso a datos.
De acuerdo a estas necesidades, se construyen los prototipos data
warehousing y se prueban para que los usuarios finales puedan
experimentar y modificar sus requerimientos.
Una vez se tenga un consenso general sobre las necesidades,
entonces se consiguen los datos provenientes de los sistemas
operacionales existentes a travs de la empresa y/o desde fuentes
externas de datos y se cargan al data warehouse.
Si se requieren herramientas de acceso a la informacin, se puede
tambin permitir a los usuarios finales tener acceso a los datos
requeridos usando sus herramientas favoritas propias, o facilitar la
creacin de sistemas de acceso a la informacin multidimensional de
alta performance, usando el ncleo del data warehouse como base.
En conclusin
No se tiene un enfoque nico para construir un data warehouse que
se adapte a las necesidades de las empresas, debido a que las
necesidades de cada una de ellas son diferentes, al igual que su
contexto.
Adems, como la tecnologa data warehousing va evolucionando, se
aprende cada vez ms y ms sobre el desarrollo de data warehouses,
que resulta en que el nico enfoque prctico para al almacenamiento
de datos es la evolucin de uno mismo.
Estrategias para el Diseo de un Data Warehouse
Desarrollo de un proyecto
o Porque Construir Bloques de Data Warehouse?
o Consideraciones Previas al Desarrollo de un Data Warehouse
Alcance de un Data Warehouse
Redundancia de Datos
Tipo de Usuario Final
o Elementos Claves para el Desarrollo de un Data Warehouse
Diseo de la Arquitectura
Sistemas de Gestin de Bases de Datos
Nuevas Dimensiones
Combinacion de la Arquitectura con el Sistema de
Gestion de Bases de Datos
Planes de Expansion
o
Desarrollo de un proyecto
Porque Construir Bloques de Data Warehouse?
Para ampliar un negocio, se necesita que la informacin sea comprensible.
Para muchas compaas, esto significa un gran data warehouse que
muestre, junto a los datos no filtrados y dispersos, nuevas formas creativas
de presentacin.
Las herramientas para capturar y explorar los datos al detalle evolucionan,
as como nuestra capacidad para encontrar las formas de explotar los datos
recolectados.
En los ltimos 10 aos se han combinado dos factores para ayudar a la
difusin de los data warehouses. Ellos son:
Ejecutivos y gerentes
"Power users" o "Buzo de Informacin" (analistas financieros y de
negocios, ingenieros, etc.)
Usuarios de soporte (de oficina, administrativos, etc.).
2. Multiprocesamiento simtrico
Las mquinas de multiprocesamiento simtrico (Symmetric
MultiProcessing - SMP) aumentan mediante la adicin de
procesadores que comparten la memoria interna de los servidores y
los dispositivos de almacenamiento de disco.
Se puede adquirir la mayora de SMP en configuraciones mnimas (es
decir, con dos procesadores) y levantar cuando es necesario,
justificando el crecimiento con las necesidades de procesamiento. La
escalabilidad de una mquina SMP alcanza su lmite en el nmero
mximo de procesadores soportados por los mecanismos de conexin
(es decir, el backplane y bus compartido).
Caractersticas /
Funcin
Estructuras
Normalizadas
Tipos de datos
abstractos
Paralelismo
Estructuras
Multidimensionales
Drill-Down
Rotacin
Operaciones
dependientes de
datos
Elija...
Requerimientos
comerciales
Soporte
de
Arquitectura Servidor
Sistemas
Usuarios
Alcance:
departamental
Pequea Usos: anlisis de ubicacin nica
datos
Alcance:
departamental
Usos: anlisis
ms informtico
Alcance:
empresa
Grandes
Analistas en una
sola ubicacin;
usuarios
informticos
dispersos
Grande;
geogrficamente
disperso
DBMS
Local
Procesador
mnimo - Consolidado nico o
MDDB
central
paquete
SMP
promedio
Seccionado Local
detalle en
mnimo central central
resumen en
promedio
local
Grupos de
SMP para
central; SP
o SMP para
local
Central
fuerte
Grupos de ObjetoSMP
relacionalsoporte
Centralizado
RDBMS
para
central MDDB
para local
Usos: anlisis
ms informtico
Web
Alcance:
departamental
Usos:
investigacin
RDBMS
con
soporte
paralelo
Centralizado
MPP