Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DATA WAREHOUSE
Data warehousing es el centro de la arquitectura para los sistemas de informacin en la dcada de los '90.
Soporta el procesamiento informtico al proveer una plataforma slida, a partir de los datos histricos para
hacer el anlisis. Facilita la integracin de sistemas de aplicacin no integrados. Organiza y almacena los datos
que se necesitan para el procesamiento analtico, informtico sobre una amplia perspectiva de tiempo.
Un Data Warehouse o Depsito de Datos es una coleccin de datos orientado a temas, integrado, no voltil, de
tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales.
Se puede caracterizar un data warehouse haciendo un contraste de cmo los datos de un negocio
almacenados en un data warehouse, difieren de los datos operacionales usados por las aplicaciones de
produccin.
El ingreso de datos en el data warehouse viene desde el ambiente operacional en casi todos los casos. El data
warehouse es siempre un almacn de datos transformados y separados fsicamente de la aplicacin donde se
encontraron los datos en el ambiente operacional.
PREFACIO
Desde que se inici la era de la computadora, las organizaciones han usado los datos desde sus sistemas
operacionales para atender sus necesidades de informacin. Algunas proporcionan acceso directo a la
informacin contenida dentro de las aplicaciones operacionales. Otras, han extrado los datos desde sus bases
de datos operacionales para combinarlos de varias formas no estructuradas, en su intento por atender a los
usuarios en sus necesidades de informacin.
Ambos mtodos han evolucionado a travs del tiempo y ahora las organizaciones manejan una data no limpia
e inconsistente, sobre las cuales, en la mayora de las veces, se toman decisiones importantes.
La gestin administrativa reconoce que una manera de elevar su eficiencia est en hacer el mejor uso de los
recursos de informacin que ya existen dentro de la organizacin. Sin embargo, a pesar de que sto se viene
intentando desde hace muchos aos, no se tiene todava un uso efectivo de los mismos.
La razn principal es la manera en que han evolucionado las computadoras, basadas en las tecnologas de
informacin y sistemas. La mayora de las organizaciones hacen lo posible por conseguir buena informacin,
pero el logro de ese objetivo depende fundamentalmente de su arquitectura actual, tanto de hardware como de
software
1
Mg. Freddy Toribio Huayta Meza
El data warehouse, es actualmente, el centro de atencin de las grandes instituciones, porque provee un
ambiente para que las organizaciones hagan un mejor uso de la informacin que est siendo administrada por
diversas aplicaciones operacionales.
Un data warehouse es una coleccin de datos en la cual se encuentra integrada la informacin de la Institucin
y que se usa como soporte para el proceso de toma de decisiones gerenciales. Aunque diversas
organizaciones y personas individuales logran comprender el enfoque de un Warehouse, la experiencia ha
demostrado que existen muchas dificultades potenciales.
Reunir los elementos de datos apropiados desde diversas fuentes de aplicacin en un ambiente integral
centralizado, simplifica el problema de acceso a la informacin y en consecuencia, acelera el proceso de
anlisis, consultas y el menor tiempo de uso de la informacin.
Las aplicaciones para soporte de decisiones basadas en un data warehousing, pueden hacer ms prctica y
fcil la explotacin de datos para una mayor eficacia del negocio, que no se logra cuando se usan slo los
datos que provienen de las aplicaciones operacionales (que ayudan en la operacin de la empresa en sus
operaciones cotidianas), en los que la informacin se obtiene realizando procesos independientes y muchas
veces complejos.
Un data warehouse se crea al extraer datos desde una o ms bases de datos de aplicaciones operacionales.
La data extrada es transformada para eliminar inconsistencias y resumir si es necesario y luego, cargadas en
el data warehouse. El proceso de transformar, crear el detalle de tiempo variante, resumir y combinar los
extractos de datos, ayudan a crear el ambiente para el acceso a la informacin Institucional. Este nuevo
enfoque ayuda a las personas individuales, en todos los niveles de la empresa, a efectuar su toma de
decisiones con ms responsabilidad.
En las metodologas anteriores, publicadas por el Instituto Nacional de Estadstica e Informtica - INEI y con el
fin de proporcionar una visin ms clara, los sistemas de informacin se han dividido de acuerdo al siguiente
esquema:
2
Mg. Freddy Toribio Huayta Meza
caracterizan porque son sistemas sin carga peridica de trabajo, es decir, su utilizacin no es predecible, al
contrario de los casos anteriores, cuya utilizacin es peridica.
Destacan entre estos sistemas: los Sistemas de Informacin Gerencial (MIS), Sistemas de Informacin
Ejecutivos (EIS), Sistemas de Informacin Georeferencial (GIS), Sistemas de Simulacin de Negocios (BIS y
que en la prctica son sistemas expertos o de Inteligencia Artificial - AI).
Sistemas Tcticos, diseados para soportar las actividades de coordinacin de actividades y manejo de
documentacin, definidos para facilitar consultas sobre informacin almacenada en el sistema, proporcionar
informes y, en resumen, facilitar la gestin independiente de la informacin por parte de los niveles intermedios
de la organizacin.
Destacan entre ellos: los Sistemas Ofimticos (OA), Sistemas de Transmisin de Mensajera (E-mail y Fax
Server), coordinacin y control de tareas (Work Flow) y tratamiento de documentos (Imagen, Trmite y Bases
de Datos Documentarios).
Sistemas Tcnico-Operativos, que cubren el ncleo de operaciones tradicionales de captura masiva de datos
(Data Entry) y servicios bsicos de tratamiento de datos, con tareas predefinidas (contabilidad, facturacin,
almacn, presupuesto, personal y otros sistemas administrativos). Estos sistemas estn evolucionando con la
irrupcin de censores, autmatas, sistemas multimedia, bases de datos relacionales ms avanzadas y data
warehousing.
Sistemas Interinstitucionales, este ltimo nivel de sistemas de informacin recin est surgiendo, es
consecuencia del desarrollo organizacional orientado a un mercado de carcter global, el cual obliga a pensar
e implementar estructuras de comunicacin ms estrechas entre la organizacin y el mercado (Empresa
Extendida, Organizacin Inteligente e Integracin Organizacional), todo sto a partir de la generalizacin de las
redes informticas de alcance nacional y global (INTERNET), que se convierten en vehculo de comunicacin
entre la organizacin y el mercado, no importa dnde est la organizacin (INTRANET), el mercado de la
institucin (EXTRANET) y el mercado (Red Global).
Sin embargo, la tecnologa data warehousing basa sus conceptos y diferencias entre dos tipos fundamentales
de sistemas de informacin en todas las organizaciones: los sistemas tcnico-operacionales y los sistemas de
soporte de decisiones. Este ltimo es la base de un data warehouse.
Como indica su nombre, son los sistemas que ayudan a manejar la empresa con sus operaciones cotidianas.
Estos son los sistemas que operan sobre el "backbone" (columna vertebral) de cualquier empresa o institucin,
entre las que se tiene sistemas de ingreso de rdenes, inventario, fabricacin, planilla y contabilidad, entre
otros.
Debido a su volumen e importancia en la organizacin, los sistemas operacionales siempre han sido las
primeras partes de la empresa a ser computarizados. A travs de los aos, estos sistemas operacionales se
han extendido, revisado, mejorado y mantenido al punto que hoy, ellos son completamente integrados en la
organizacin.
Desde luego, la mayora de las organizaciones grandes de todo el mundo, actualmente no podran operar sin
sus sistemas operacionales y los datos que estos sistemas mantienen.
Por otra parte, hay otras funciones dentro de la empresa que tienen que ver con el planeamiento, previsin y
administracin de la organizacin. Estas funciones son tambin crticas para la supervivencia de la
organizacin, especialmente en nuestro mundo de rpidos cambios.
3
Mg. Freddy Toribio Huayta Meza
Estos sistemas estn relacionados con el anlisis de los datos y la toma de decisiones, frecuentemente,
decisiones importantes sobre cmo operar la empresa, ahora y en el futuro. Estos sistemas no slo tienen un
enfoque diferente al de los operacionales, sino que, por lo general, tienen un alcance diferente.
Mientras las necesidades de los datos operacionales se enfocan normalmente hacia una sola rea, los datos
para el soporte de decisiones, con frecuencia, toma un nmero de reas diferentes y necesita cantidades
grandes de datos operacionales relacionadas.
4
Mg. Freddy Toribio Huayta Meza
El ambiente operacional se disea alrededor de las aplicaciones y funciones tales como prstamos,
ahorros, tarjeta bancaria y depsitos para una institucin financiera. Por ejemplo, una aplicacin de
ingreso de rdenes puede accesar a los datos sobre clientes, productos y cuentas. La base de datos
combina estos elementos en una estructura que acomoda las necesidades de la aplicacin.
En el ambiente data warehousing se organiza alrededor de sujetos tales como cliente, vendedor,
producto y actividad. Por ejemplo, para un fabricante, stos pueden ser clientes, productos,
proveedores y vendedores. Para una universidad pueden ser estudiantes, clases y profesores. Para un
hospital pueden ser pacientes, personal mdico, medicamentos, etc.
La alineacin alrededor de las reas de los temas afecta el diseo y la implementacin de los datos
encontrados en el data warehouse. Las principales reas de los temas influyen en la parte ms
importante de la estructura clave.
5
Mg. Freddy Toribio Huayta Meza
Las aplicaciones estn relacionadas con el diseo de la base de datos y del proceso. En data
warehousing se enfoca el modelamiento de datos y el diseo de la base de datos. El diseo del
proceso (en su forma clsica) no es separado de este ambiente.
Las diferencias entre la orientacin de procesos y funciones de las aplicaciones y la orientacin a
temas, radican en el contenido de la data a nivel detallado. En el data warehouse se excluye la
informacin que no ser usada por el proceso de sistemas de soporte de decisiones, mientras que la
informacin de las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los
requerimientos funcionales y de proceso, que pueden ser usados o no por el analista de soporte de
decisiones.
Otra diferencia importante est en la interrelacin de la informacin. Los datos operacionales
mantienen una relacin continua entre dos o ms tablas basadas en una regla comercial que est
vigente. Las del data warehouse miden un espectro de tiempo y las relaciones encontradas en el data
warehouse son muchas. Muchas de las reglas comerciales (y sus correspondientes relaciones de
datos) se representan en el data warehouse, entre dos o ms tablas.
1.3.2 Integracin
El aspecto ms importante del ambiente data warehousing es que la informacin encontrada al interior
est siempre integrada.
A travs de los aos, los diseadores de las diferentes aplicaciones han tomado sus propias
decisiones sobre cmo se debera construir una aplicacin. Los estilos y diseos personalizados se
muestran de muchas maneras.
No importa mucho cmo el GENERO llega al data warehouse. Probablemente "M" y "F" sean tan
buenas como cualquier otra representacin. Lo importante es que sea de cualquier fuente de donde
venga, el GENERO debe llegar al data warehouse en un estado integrado uniforme.
Por lo tanto, cuando el GENERO se carga en el data warehouse desde una aplicacin, donde ha sido
representado en formato "M" y "F", los datos deben convertirse al formato del data warehouse.
Medida de atributos. Los diseadores de aplicaciones miden las unidades de medida de las
tuberas en una variedad de formas. Un diseador almacena los datos de tuberas en
centmetros, otros en pulgadas, otros en millones de pies cbicos por segundo y otros en
yardas.
6
Mg. Freddy Toribio Huayta Meza
Al dar medidas a los atributos, la transformacin traduce las diversas unidades de medida usadas en
las diferentes bases de datos para transformarlas en una medida estndar comn.
Cualquiera que sea la fuente, cuando la informacin de la tubera llegue al data warehouse necesitar
ser medida de la misma manera.
7
Mg. Freddy Toribio Huayta Meza
Tal como se muestra en la figura, los puntos de integracin afectan casi todos los aspectos de diseo -
las caractersticas fsicas de los datos, la disyuntiva de tener ms de una de fuente de datos, el
problema de estndares de denominacin inconsistentes, formatos de fecha inconsistentes y otros.
Cualquiera que sea la forma del diseo, el resultado es el mismo - la informacin necesita ser
almacenada en el data warehouse en un modelo globalmente aceptable y singular, aun cuando los
sistemas operacionales subyacentes almacenen los datos de manera diferente.
Toda la informacin del data warehouse es requerida en algn momento. Esta caracterstica bsica de
los datos en un depsito, es muy diferente de la informacin encontrada en el ambiente operacional.
En stos, la informacin se requiere al momento de accesar. En otras palabras, en el ambiente
operacional, cuando usted accesa a una unidad de informacin, usted espera que los valores
requeridos se obtengan a partir del momento de acceso.
Como la informacin en el data warehouse es solicitada en cualquier momento (es decir, no "ahora
mismo"), los datos encontrados en el depsito se llaman de "tiempo variante".
Los datos histricos son de poco uso en el procesamiento operacional. La informacin del depsito por
el contraste, debe incluir los datos histricos para usarse en la identificacin y evaluacin de
tendencias. (Ver Figura N 3).
8
Mg. Freddy Toribio Huayta Meza
1 La ms simple es que la informacin representa los datos sobre un horizonte largo de tiempo -
desde cinco a diez aos. El horizonte de tiempo representado para el ambiente operacional es mucho
ms corto - desde valores actuales hasta sesenta a noventa das.
Las aplicaciones que tienen un buen rendimiento y estn disponibles para el procesamiento de
transacciones, deben llevar una cantidad mnima de datos si tienen cualquier grado de flexibilidad. Por
ello, las aplicaciones operacionales tienen un corto horizonte de tiempo, debido al diseo de
aplicaciones rgidas.
El elemento de tiempo est casi siempre al pie de la clave concatenada, encontrada en el data
warehouse. En ocasiones, el elemento de tiempo existir implcitamente, como el caso en que un
archivo completo se duplica al final del mes, o al cuarto.
3 La tercera manera en que aparece el tiempo variante es cuando la informacin del data warehouse,
una vez registrada correctamente, no puede ser actualizada. La informacin del data warehouse es,
para todos los propsitos prcticos, una serie larga de "snapshots" (vistas instantneas).
Por supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces pueden ser
cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos no son alterados una
vez hechos. En algunos casos puede ser no tico, e incluso ilegal, alterar los snapshots en el data
warehouse. Los datos operacionales, siendo requeridos a partir del momento de acceso, pueden
actualizarse de acuerdo a la necesidad.
1.3.4 No Voltil
La informacin es til slo cuando es estable. Los datos operacionales cambian sobre una base
momento a momento. La perspectiva ms grande, esencial para el anlisis y la toma de decisiones,
requiere una base de datos estable.
Hay algunas consecuencias muy importantes de esta diferencia bsica, entre el procesamiento
operacional y del data warehouse. En el nivel de diseo, la necesidad de ser precavido para actualizar
las anomalas no es un factor en el data warehouse, ya que no se hace la actualizacin de datos. Esto
significa que en el nivel fsico de diseo, se pueden tomar libertades para optimizar el acceso a los
datos, particularmente al usar la normalizacin y denormalizacin fsica.
9
Mg. Freddy Toribio Huayta Meza
La fuente de casi toda la informacin del data warehouse es el ambiente operacional. A simple vista, se
puede pensar que hay redundancia masiva de datos entre los dos ambientes. Desde luego, la primera
impresin de muchas personas se centra en la gran redundancia de datos, entre el ambiente
operacional y el ambiente de data warehouse. Dicho razonamiento es superficial y demuestra una
carencia de entendimiento con respecto a qu ocurre en el data warehouse. De hecho, hay una
mnima redundancia de datos entre ambos ambientes.
Los datos se filtran cuando pasan desde el ambiente operacional al de depsito. Existe mucha
data que nunca sale del ambiente operacional. Slo los datos que realmente se necesitan
ingresarn al ambiente de data warehouse.
Los datos experimentan una transformacin fundamental cuando pasa al data warehouse. La
mayor parte de los datos se alteran significativamente al ser seleccionados y movidos al data
warehouse. Dicho de otra manera, la mayora de los datos se alteran fsica y radicalmente
cuando se mueven al depsito. No es la misma data que reside en el ambiente operacional
desde el punto de vista de integracin.
En vista de estos factores, la redundancia de datos entre los dos ambientes es una ocurrencia rara,
que resulta en menos de 1%.
10
Mg. Freddy Toribio Huayta Meza
Los data warehouses tienen una estructura distinta. Hay niveles diferentes de esquematizacin y detalle que
delimitan el data warehouse. La estructura de un data warehouse se muestra en la Figura N 5.
Meta data
Detalle de datos actuales.- En gran parte, el inters ms importante radica en el detalle de los
datos actuales, debido a que:
Refleja las ocurrencias ms recientes, las cuales son de gran inters
Es voluminoso, ya que se almacena al ms bajo nivel de granularidad.
Casi siempre se almacena en disco, el cual es de fcil acceso, aunque su administracin
sea costosa y compleja.
Detalle de datos antiguos.- La data antigua es aquella que se almacena sobre alguna forma de
almacenamiento masivo. No es frecuentemente accesada y se almacena a un nivel de detalle,
consistente con los datos detallados actuales. Mientras no sea prioritario el almacenamiento en un
medio de almacenaje alterno, a causa del gran volumen de datos unido al acceso no frecuente de
los mismos, es poco usual utilizar el disco como medio de almacenamiento.
Datos ligeramente resumidos.- La data ligeramente resumida es aquella que proviene desde un
bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel del data warehouse casi
siempre se almacena en disco. Los puntos en los que se basa el diseador para construirlo son:
Que la unidad de tiempo se encuentre sobre la esquematizacin hecha.
Qu contenidos (atributos) tendr la data ligeramente resumida.
Datos completamente resumidos.- El siguiente nivel de datos encontrado en el data warehouse
es el de los datos completamente resumidos. Estos datos son compactos y fcilmente accesibles.
11
Mg. Freddy Toribio Huayta Meza
A veces se encuentra en el ambiente de data warehouse y en otros, fuera del lmite de la tecnologa
que ampara al data warehouse. (De todos modos, los datos completamente resumidos son parte del
data warehouse sin considerar donde se alojan los datos fsicamente.)
La metadata juega un rol especial y muy importante en el data warehouse y es usada como:
12
Mg. Freddy Toribio Huayta Meza
Un directorio para ayudar al analista a ubicar los contenidos del data warehouse.
Una gua para el mapping de datos de cmo se transforma, del ambiente operacional al de
data warehouse.
Una gua de los algoritmos usados para la esquematizacin entre el detalle de datos actual,
con los datos ligeramente resumidos y stos, con los datos completamente resumidos, etc.
A fin de recordar los diferentes niveles de los datos encontrados en el data warehouse, considere el
ejemplo mostrado en la Figura N 6.
El detalle de ventas antiguas son las que se encuentran antes de 1992. Todos los detalles de ventas
desde 1982 (o cuando el diseador inici la coleccin de los archivos) son almacenados en el nivel de
detalle de datos ms antiguo.
El detalle actual contiene informacin desde 1992 a 1993 (suponiendo que 1993 es el ao actual). En
general, el detalle de ventas no se ubica en el nivel de detalle actual hasta que haya pasado, por lo
menos, veinticuatro horas desde que la informacin de ventas llegue a estar disponible en el ambiente
operacional.
13
Mg. Freddy Toribio Huayta Meza
En otras palabras, habra un retraso de tiempo de por lo menos veinticuatro horas, entre el tiempo en
que en el ambiente operacional se haya hecho un nuevo ingreso de la venta y el momento cuando la
informacin de la venta haya ingresado al data warehouse.
El detalle de las ventas son resumidas semanalmente por lnea de subproducto y por regin, para
producir un almacenamiento de datos ligeramente resumidos.
14
Mg. Freddy Toribio Huayta Meza
El detalle de ventas semanal es adicionalmente resumido en forma mensual, segn una gama de
lneas, para producir los datos completamente resumidos.
Una de las razones por las que el desarrollo de un data warehouse crece rpidamente, es que realmente es
una tecnologa muy entendible. De hecho, data warehousing puede representar mejor la estructura amplia de
una empresa para administrar los datos informacionales dentro de la organizacin. A fin de comprender cmo
se relacionan todos los componentes involucrados en una estrategia data warehousing, es esencial tener una
Arquitectura Data Warehouse.
Una Arquitectura Data Warehouse (Data Warehouse Architecture - DWA) es una forma de representar
la estructura total de datos, comunicacin, procesamiento y presentacin, que existe para los usuarios
finales que disponen de una computadora dentro de la empresa.
15
Mg. Freddy Toribio Huayta Meza
Los sistemas operacionales procesan datos para apoyar las necesidades operacionales crticas. Para
hacer eso, se han creado las bases de datos operacionales histricas que proveen una estructura de
procesamiento eficiente, para un nmero relativamente pequeo de transacciones comerciales bien
definidas.
Sin embargo, a causa del enfoque limitado de los sistemas operacionales, las bases de datos
diseadas para soportar estos sistemas, tienen dificultad al accesar a los datos para otra gestin o
propsitos informticos.
Esta dificultad en accesar a los datos operacionales es amplificada por el hecho que muchos de estos
sistemas tienen de 10 a 15 aos de antigedad. El tiempo de algunos de estos sistemas significa que
la tecnologa de acceso a los datos disponible para obtener los datos operacionales, es as mismo
antigua.
Ciertamente, la meta del data warehousing es liberar la informacin que es almacenada en bases de
datos operacionales y combinarla con la informacin desde otra fuente de datos, generalmente
externa.
Cada vez ms, las organizaciones grandes adquieren datos adicionales desde bases de datos
externas.
Esta informacin incluye tendencias demogrficas, economtricas, adquisitivas y competitivas (que
pueden ser proporcionadas por Instituciones Oficiales - INEI). Internet o tambin llamada "information
superhighway" (supercarretera de la informacin) provee el acceso a ms recursos de datos todos los
das.
El nivel de acceso a la informacin de la arquitectura data warehouse, es el nivel del que el usuario
final se encarga directamente. En particular, representa las herramientas que el usuario final
normalmente usa da a da. Por ejemplo: Excel, Lotus 1-2-3, Focus, Access, SAS, etc.
Este nivel tambin incluye el hardware y software involucrados en mostrar informacin en pantalla y
emitir reportes de impresin, hojas de clculo, grficos y diagramas para el anlisis y presentacin.
Hace dos dcadas que el nivel de acceso a la informacin se ha expandido enormemente,
especialmente a los usuarios finales quienes se han volcado a las PCs monousuarias y las PCs en
redes.
Actualmente, existen herramientas ms y ms sofisticadas para manipular, analizar y presentar los
datos, sin embargo, hay problemas significativos al tratar de convertir los datos tal como han sido
16
Mg. Freddy Toribio Huayta Meza
El nivel de acceso a los datos de la arquitectura data warehouse est involucrado con el nivel de
acceso a la informacin para conversar en el nivel operacional. En la red mundial de hoy, el lenguaje
de datos comn que ha surgido es SQL. Originalmente, SQL fue desarrollado por IBM como un
lenguaje de consulta, pero en los ltimos veinte aos ha llegado a ser el estndar para el intercambio
de datos.
Uno de los adelantos claves de los ltimos aos ha sido el desarrollo de una serie de "filtros" de
acceso a datos, tales como EDA/SQL para accesar a casi todo los Sistemas de Gestin de Base de
Datos (Data Base Management Systems - DBMSs) y sistemas de archivos de datos, relacionales o no.
Estos filtros permiten a las herramientas de acceso a la informacin, accesar tambin a la data
almacenada en sistemas de gestin de base de datos que tienen veinte aos de antigedad.
El nivel de acceso a los datos no solamente conecta DBMSs diferentes y sistemas de archivos sobre el
mismo hardware, sino tambin a los fabricantes y protocolos de red. Una de las claves de una
estrategia data warehousing es proveer a los usuarios finales con "acceso a datos universales".
El acceso a los datos universales significa que, tericamente por lo menos, los usuarios finales sin
tener en cuenta la herramienta de acceso a la informacin o ubicacin, deberan ser capaces de
accesar a cualquier o todos los datos en la empresa que es necesaria para ellos, para hacer su
trabajo.
El nivel de acceso a los datos entonces es responsable de la interfase entre las herramientas de
acceso a la informacin y las bases de datos operacionales. En algunos casos, esto es todo lo que un
usuario final necesita. Sin embargo, en general, las organizaciones desarrollan un plan mucho ms
sofisticado para el soporte del data warehousing.
A fin de proveer el acceso a los datos universales, es absolutamente necesario mantener alguna forma
de directorio de datos o repositorio de la informacin metadata. La metadata es la informacin
alrededor de los datos dentro de la empresa.
Las descripciones de registro en un programa COBOL son metadata. Tambin lo son las sentencias
DIMENSION en un programa FORTRAN o las sentencias a crear en SQL.
A fin de tener un depsito totalmente funcional, es necesario tener una variedad de metadata
disponibles, informacin sobre las vistas de datos de los usuarios finales e informacin sobre las bases
de datos operacionales. Idealmente, los usuarios finales deberan de accesar a los datos desde el data
warehouse (o desde las bases de datos operacionales), sin tener que conocer dnde residen los datos
o la forma en que se han almacenados.
El nivel de gestin de procesos tiene que ver con la programacin de diversas tareas que deben
realizarse para construir y mantener el data warehouse y la informacin del directorio de datos. Este
nivel puede depender del alto nivel de control de trabajo para muchos procesos (procedimientos) que
deben ocurrir para mantener el data warehouse actualizado.
El nivel de mensaje de la aplicacin tiene que ver con el transporte de informacin alrededor de la red
de la empresa. El mensaje de aplicacin se refiere tambin como "subproducto", pero puede involucrar
17
Mg. Freddy Toribio Huayta Meza
slo protocolos de red. Puede usarse por ejemplo, para aislar aplicaciones operacionales o
estratgicas a partir del formato de datos exacto, recolectar transacciones o los mensajes y entregarlos
a una ubicacin segura en un tiempo seguro.
En el data warehouse (ncleo) es donde ocurre la data actual, usada principalmente para usos
estratgicos. En algunos casos, uno puede pensar del data warehouse simplemente como una vista
lgica o virtual de datos. En muchos ejemplos, el data warehouse puede no involucrar almacenamiento
de datos.
En un data warehouse fsico, copias, en algunos casos, muchas copias de datos operacionales y/o
externos, son almacenados realmente en una forma que es fcil de accesar y es altamente flexible.
Cada vez ms, los data warehouses son almacenados sobre plataformas cliente/servidor, pero por lo
general se almacenan sobre mainframes.
a) Sistemas Operacionales
18
Mg. Freddy Toribio Huayta Meza
Los datos administrados por los sistemas de aplicacin operacionales son la fuente principal de datos
para el data warehouse.
Las bases de datos operacionales se organizan como archivos indexados (UFAS, VSAM), bases de
datos de redes/jerrquicas (I-D-S/II, IMS, IDMS) o sistemas de base de datos relacionales (DB2,
Oracle, Informix, etc.). Segn las encuestas, aproximadamente del 70% a 80% de las bases de datos
de las empresas se organizan usando DBMSs no relacional.
Se requieren herramientas de gestin de datos para extraer datos desde bases de datos y/o archivos
operacionales, luego es necesario manipular o transformar los datos antes de cargar los resultados en
el data warehouse.
Tomar los datos desde varias bases de datos operacionales y transformarlos en datos requeridos para
el depsito, se refiere a la transformacin o a la integracin de datos. Las bases de datos
operacionales, diseadas para el soporte de varias aplicaciones de produccin, frecuentemente
difieren en el formato.
Los mismos elementos de datos, si son usados por aplicaciones diferentes o administrados por
diferentes software DBMS, pueden definirse al usar nombres de elementos inconsistentes, que tienen
formatos inconsistentes y/o ser codificados de manera diferente. Todas estas inconsistencias deben
resolverse antes que los elementos de datos sean almacenados en el data warehouse.
c) Metadata
Otro paso necesario es crear la metadata. La metadata (es decir, datos acerca de datos) describe los
contenidos del data warehouse. La metadata consiste de definiciones de los elementos de datos en el
depsito, sistema(s) del (os) elemento(s) fuente. Como la data, se integra y transforma antes de ser
almacenada en informacin similar.
Los usuarios accesan al data warehouse por medio de herramientas de productividad basadas en GUI
(Graphical User Interface - Interfase grfica de usuario). Pueden proveerse a los usuarios del data
warehouse muchos de estos tipos de herramientas.
Estos pueden incluir software de consultas, generadores de reportes, procesamiento analtico en lnea,
herramientas data/visual mining, etc., dependiendo de los tipos de usuarios y sus requerimientos
particulares. Sin embargo, una sola herramienta no satisface todos los requerimientos, por lo que es
necesaria la integracin de una serie de herramientas.
La plataforma para el data warehouse es casi siempre un servidor de base de datos relacional. Cuando
se manipulan volmenes muy grandes de datos puede requerirse una configuracin en bloque de
servidores UNIX con multiprocesador simtrico (SMP) o un servidor con procesador paralelo masivo
(MPP) especializado.
Los extractos de la data integrada/transformada se cargan en el data warehouse. Uno de los ms
populares RDBMSs disponibles para data warehousing sobre la plataforma UNIX (SMP y MPP)
generalmente es Teradata. La eleccin de la plataforma es crtica. El depsito crecer y hay que
comprender los requerimientos despus de 3 o 5 aos.
Muchas de las organizaciones quieran o no escogen una plataforma por diversas razones: el Sistema
X es nuestro sistema elegido o el Sistema Y est ya disponible sobre un sistema UNIX que nosotros ya
tenemos. Uno de los errores ms grandes que las organizaciones cometen al seleccionar la
plataforma, es que ellos presumen que el sistema (hardware y/o DBMS) escalar con los datos.
19
Mg. Freddy Toribio Huayta Meza
El sistema de depsito ejecuta las consultas que se pasa a los datos por el software de acceso a los
datos del usuario. Aunque un usuario visualiza las consultas desde el punto de vista de un GUI, las
consultas tpicamente se formulan como pedidos SQL, porque SQL es un lenguaje universal y el
estndar de hecho para el acceso a datos.
f) Datos Externos
Dependiendo de la aplicacin, el alcance del data warehouse puede extenderse por la capacidad de
accesar a la data externa. Por ejemplo, los datos accesibles por medio de servicios de computadora en
lnea (tales como CompuServe y America On Line) y/o va Internet, pueden estar disponibles a los
usuarios del data warehouse.
1. Evolucin del Depsito
Construir un data warehouse es una tarea grande. No es recomendable emprender el desarrollo del
data warehouse de la empresa como un proyecto cualquiera. Ms bien, se recomienda que los
requerimientos de una serie de fases se desarrollen e implementen en modelos consecutivos que
permitan un proceso de implementacin ms gradual e iterativo.
No existe ninguna organizacin que haya triunfado en el desarrollo del data warehouse de la empresa,
en un slo paso. Muchas, sin embargo, lo han logrado luego de un desarrollo paso a paso. Los pasos
previos evolucionan conjuntamente con la materia que est siendo agregada.
Los datos en el data warehouse no son voltiles y es un repositorio de datos de slo lectura (en
general). Sin embargo, pueden aadirse nuevos elementos sobre una base regular para que el
contenido siga la evolucin de los datos en la base de datos fuente, tanto en los contenidos como en el
tiempo.
Uno de los desafos de mantener un data warehouse, es idear mtodos para identificar datos nuevos o
modificados en las bases de datos operacionales. Algunas maneras para identificar estos datos
incluyen insertar fecha/tiempo en los registros de base de datos y entonces crear copias de registros
actualizados y copiar informacin de los registros de transaccin y/o base de datos diarios.
Estos elementos de datos nuevos y/o modificados son extrados, integrados, transformados y
agregados al data warehouse en pasos peridicos programados. Como se aaden las nuevas
ocurrencias de datos, los datos antiguos son eliminados. Por ejemplo, si los detalles de un sujeto
particular se mantienen por 5 aos, como se agreg la ltima semana, la semana anterior es
eliminada.
20
Mg. Freddy Toribio Huayta Meza
Se requiere una planificacin cuidadosa y detallada para transformar datos inconsistentes en conjuntos
de datos conciliables y consistentes para cargarlos en el data warehouse.
1.6.2 Metadata
Estos mtodos y tcnicas son dependientes de los requerimientos de cada organizacin, de las
capacidades existentes y de los requerimientos de interfase de usuario. Hasta ahora, no hay normas
para la metadata, por lo que la metadata debe definirse desde el punto de vista del software data
warehousing, seleccionado para una implementacin especfica.
Las estructuras de datos que dan una visin de los datos al administrador de datos.
Las definiciones del sistema de registro desde el cual se construye el data warehouse.
Las especificaciones de transformaciones de datos que ocurren tal como la fuente de datos se
replica al data warehouse.
El modelo de datos del data warehouse (es decir, los elementos de datos y sus relaciones).
Un registro de cuando los nuevos elementos de datos se agregan al data warehouse y cuando
los elementos de datos antiguos se eliminan o se resumen.
21
Mg. Freddy Toribio Huayta Meza
Los esquemas y subesquemas para bases de datos operacionales, forman una fuente ptima de
entrada cuando se crea la metadata. Hacer uso de la documentacin existente, especialmente cuando
est disponible en forma electrnica, puede acelerar el proceso de definicin de la metadata del
ambiente data warehousing.
La metadata sirve, en un sentido, como el corazn del ambiente data warehousing. Crear definiciones
de metadata completa y efectiva puede ser un proceso que consuma tiempo, pero lo mejor de las
definiciones y si usted usa herramientas de gestin de software integrado, son los esfuerzos que darn
como resultado el mantenimiento del data warehouse.
Existe un flujo de datos normal y predecible dentro del data warehouse. La Figura N 10 muestra ese flujo.
Los datos ingresan al data warehouse desde el ambiente operacional. (Hay pocas excepciones a esta regla).
Al ingresar al data warehouse, la informacin va al nivel de detalle actual, tal como se muestra. Se queda all y
se usa hasta que ocurra uno de los tres eventos siguientes:
Sea eliminado
Sea resumido
Sea archivado
Con el proceso de desactualizacin en un data warehouse se mueve el detalle de la data actual a data antigua,
basado en el tiempo de los datos. El proceso de esquematizacin usa el detalle de los datos para calcular los
datos en forma ligera y completamente resumidos.
Hay pocas excepciones al flujo mostrado. Sin embargo, en general, para la mayora de datos encontrados en
un data warehouse, el flujo de la informacin es como se ha explicado.
22
Mg. Freddy Toribio Huayta Meza
Dependiendo del volumen de informacin, la frecuencia de acceso, el costo de los medios y el tipo de acceso,
es probable que otros medios de almacenamiento sirvan a las necesidades del nivel de detalle ms antiguo en
el data warehouse.
Los datos operacionales y los datos del data warehouse son accesados por usuarios que usan los datos de
maneras diferentes.
23
Mg. Freddy Toribio Huayta Meza
Uso de Uso de
Base de Datos Operacionales Data Warehouse
Muchos usuarios concurrentes Pocos usuarios concurrentes
Consultas complejas, frecuentemente
Consultas predefinidas y actualizables
no anticipadas.
Los usuarios de un data warehouse necesitan accesar a los datos complejos, frecuentemente desde fuentes
mltiples y de formas no predecibles.
Los usuarios que accesan a los datos operacionales, comnmente efectan tareas predefinidas que,
generalmente requieren acceso a una sola base de datos de una aplicacin. Por el contrario, los usuarios que
accesan al data warehouse, efectan tareas que requieren acceso a un conjunto de datos desde fuentes
mltiples y frecuentemente no son predecibles. Lo nico que se conoce (si es modelada correctamente) es el
conjunto inicial de datos que se han establecido en el depsito.
Por ejemplo, un especialista en el cuidado de la salud podra necesitar accesar a los datos actuales e histricos
para analizar las tendencias de costos, usando un conjunto de consultas predefinidas. Por el contrario, un
representante de ventas podra necesitar accesar a los datos de cliente y producto para evaluar la eficacia de
una campaa de marketing, creando consultas base o ad-hoc para encontrar nuevamente necesidades
definidas.
Los usuarios del data warehouse generan consultas complejas. A veces la respuesta a una consulta
conduce a la formulacin de otras preguntas ms detalladas, en un proceso llamado drilling down. El
data warehouse puede incluir niveles de resmenes mltiples, derivado de un conjunto principal, nico,
de datos detallados, para soportar este tipo de uso.
En efecto, los usuarios frecuentemente comienzan buscando en los datos resumidos y como
identifican reas de inters, comienzan a accesar al conjunto de datos detallado. Los conjuntos de
datos resumidos representan el "Qu" de una situacin y los conjuntos de datos detallados permiten a
los usuarios construir un cuadro sobre "Cmo" se ha derivado esa situacin.
Debido a la necesidad de investigar tendencias y evaluar las relaciones entre muchas clases de datos,
las consultas al data warehouse permiten accesar a volmenes muy grandes tanto de data detallada
24
Mg. Freddy Toribio Huayta Meza
como resumida. Debido a los requerimientos de datos histricos, los data warehouses evolucionan
para llegar a un tamao ms grande que sus orgenes operacionales (de 10 a 100 veces ms grande).
Las transacciones operacionales necesitan una respuesta inmediata porque un cliente puede estar
esperando una respuesta. En el data warehouse, por el contrario, tiene un requerimiento de respuesta
no-crtico porque el resultado frecuentemente se usa en un proceso de anlisis y toma de decisiones.
Aunque los tiempos de respuesta no son crticos, los usuarios esperan una respuesta dentro del
mismo da en que es hecha la consulta.
Por lo general, los diferentes niveles de datos dentro del data warehouse reciben diferentes usos. A
ms alto nivel de esquematizacin, se tiene mayor uso de los datos.
En la Figura N 12 se muestra que hay mayor uso de los datos completamente resumidos, a diferencia
de la informacin antigua que apenas es usada.
Hay una buena razn para mover una organizacin al paradigma sugerido en la figura, la utilizacin del
recurso. La data ms resumida, permite capturar los datos en forma ms rpida y eficiente. Si en una
tarea se encuentra que se hace mucho procesamiento a niveles de detalle del data warehouse,
entonces se consumir muchos recursos de mquina. Es mejor hacer el procesamiento a niveles ms
altos de esquematizacin como sea posible.
Para muchas tareas, el analista de sistemas de soporte de decisiones usa la informacin a nivel de
detalle en un pre data warehouse. La seguridad de la informacin de detalle se consigue de muchas
maneras, aun cuando estn disponibles otros niveles de esquematizacin. Una de las actividades del
diseador de datos es el de desconectar al usuario del sistema de soporte de decisiones del uso
constante de datos a nivel de detalle ms bajo.
25
Mg. Freddy Toribio Huayta Meza
Instalar un sistema chargeback, donde el usuario final pague por los recursos consumidos
Sealar el mejor tiempo de respuesta que puede obtenerse cuando se trabaja con la data a un
nivel alto de esquematizacin, a diferencia de un pobre tiempo de respuesta que resulta de
trabajar con los datos a un nivel bajo de detalle.
Para ilustrar cmo un data warehouse puede ayudar a una organizacin a mejorar sus operaciones, se
muestra un ejemplo de lo que es el desarrollo de actividades sin tener un data warehouse.
Ejemplo:
26
Mg. Freddy Toribio Huayta Meza
Considere un problema bastante tpico en una compaa de fabricacin grande en el que se pide una
informacin (un reporte) que no est disponible.
La informacin financiera actual se obtiene desde una base de datos mediante un programa de
extraccin de datos, el inventario actual de otro programa de extraccin de otra base de datos, la
condicin actual de personal de un tercer programa de extraccin y la informacin histrica desde un
backup de cinta magntica o CD-ROM.
Lo ms interesante es que se ha pedido otro informe que contine al primer informe (debido a que las
preguntas se originaron a partir del anterior). El hecho es, que ninguno de los trabajos realizados hasta
aqu (por ejemplo, diversos programas de extraccin) se pueden usar para los prximos o para
cualquier reporte subsiguiente. Imagine el tiempo y el esfuerzo que se ha desperdiciado por un
enfoque anticuado. (Ver Figura N 13).
Las inconsistencias deben identificarse en cada conjunto de datos extrados y resolverse, por lo
general, manualmente. Cuando se completa todo este procesamiento, el reporte puede ser
formateado, impreso, revisado y transmitido.
Nuevamente, el punto importante aqu es que todo el trabajo desempeado para hacer este informe no
afecta a otros reportes que pueden solicitarse es decir, todos ellos son independientes y caros, desde
el punto de vista de recursos y productividad.
27
Mg. Freddy Toribio Huayta Meza
Al crear un data warehouse y combinar todos los datos requeridos, se obtienen los siguientes beneficios:
Los errores que ocurrieron durante el proceso complejo de la preparacin del informe, se
minimizan porque el proceso es ahora mucho ms simple.
Los elementos de datos son fcilmente accesibles para otros usos, no slo para un reporte
particular.
Hay algunas consideraciones adicionales que deben tenerse en cuenta al construir y administrar el data
warehouse.
28
Mg. Freddy Toribio Huayta Meza
Por lo mismo, los datos en los niveles ms altos de detalle pueden ser reestructurados fcilmente, mientras
que el volumen de datos en los niveles ms inferiores es tan grande, que los datos no pueden ser fcilmente
reestructurados.
Por consiguiente, el modelo de datos y el diseo clsico fundamentan que el data warehouse se aplique casi
exclusivamente al nivel actual de detalle. En otras palabras, las actividades de modelamiento de datos no se
aplican a los niveles de esquematizacin, en casi todos los casos.
La particin puede hacerse de dos maneras: al nivel de DBMS y al nivel de la aplicacin. En la particin DBMS,
se conoce las particiones y se administra por consiguiente. En el caso de la particin de las aplicaciones, slo
los programadores de las mismas conocen las particiones y la responsabilidad de su administracin es
asignada a ellos.
Al interior de las particiones DBMS, mucho de los trabajos de infraestructura se hacen automticamente. Pero
existe un elevado grado de rigidez asociada con la gestin automtica de las particiones. En el caso de las
particiones de las aplicaciones del data warehouse, la mayor parte del trabajo recae sobre el programador,
pero el resultado final es que la gestin de datos es ms flexible.
29