Está en la página 1de 75

1

DATA WAREHOUSE
Introduccin
Desde que se inici la era de la computadora, las organizaciones han
usado los datos desde sus sistemas operacionales para atender sus
necesidades de informacin. Algunas proporcionan acceso directo a la
informacin contenida dentro de las aplicaciones operacionales. Otras,
han extrado los datos desde sus bases de datos operacionales para
combinarlos de varias formas no estructuradas, en su intento por
atender a los usuarios en sus necesidades de informacin.
Ambos mtodos han evolucionado a travs del tiempo ahora las
organizaciones mane!an una data no limpia e inconsistente, sobre las
cuales, en la maora de las veces, se toman decisiones importantes.
"a gestin administrativa reconoce que una manera de elevar su
eficiencia est# en hacer el me!or uso de los recursos de informacin
que a existen dentro de la organizacin. $in embargo, a pesar de que
esto se viene intentando desde hace muchos a%os, no se tiene todava
un uso efectivo de los mismos.
"a razn principal es la manera en que han evolucionado las
computadoras, basadas en las tecnologas de informacin sistemas.
"a maora de las organizaciones hacen lo posible por conseguir
buena informacin, pero el logro de ese ob!etivo depende
fundamentalmente de su arquitectura actual, tanto de hard&are como
de soft&are.
'l data &arehouse, es actualmente, el centro de atencin de las
grandes instituciones, porque provee un ambiente para que las
organizaciones hagan un me!or uso de la informacin que est# siendo
administrada por diversas aplicaciones operacionales.
(n data &arehouse es una coleccin de datos en la cual se encuentra
integrada la informacin de la )nstitucin que se usa como soporte
para el proceso de toma de decisiones gerenciales. Aunque diversas
organizaciones personas individuales logran comprender el enfoque
de un *arehouse, la experiencia ha demostrado que existen muchas
dificultades potenciales.
2
+eunir los elementos de datos apropiados desde diversas fuentes de
aplicacin en un ambiente integral centralizado, simplifica el problema
de acceso a la informacin en consecuencia, acelera el proceso de
an#lisis, consultas el menor tiempo de uso de la informacin.
"as aplicaciones para soporte de decisiones basadas en un data
&arehousing, pueden hacer m#s pr#ctica f#cil la explotacin de
datos para una maor eficacia del negocio, que no se logra cuando se
usan slo los datos que provienen de las aplicaciones operacionales
,que audan en la operacin de la empresa en sus operaciones
cotidianas-, en los que la informacin se obtiene realizando procesos
independientes muchas veces comple!os.
(n data &arehouse se crea al extraer datos desde una o m#s bases
de datos de aplicaciones operacionales. "a data extrada es
transformada para eliminar inconsistencias resumir si es necesario
luego, cargadas en el data &arehouse. 'l proceso de transformar,
crear el detalle de tiempo variante, resumir combinar los extractos de
datos, audan a crear el ambiente para el acceso a la informacin
)nstitucional. 'ste nuevo enfoque auda a las personas individuales,
en todos los niveles de la empresa, a efectuar su toma de decisiones
con m#s responsabilidad.
"a innovacin de la .ecnologa de )nformacin dentro de un ambiente
data &arehousing, puede permitir a cualquier organizacin hacer un
uso m#s ptimo de los datos, como un ingrediente clave para un
proceso de toma de decisiones m#s efectivo. "as organizaciones
tienen que aprovechar sus recursos de informacin para crear la
informacin de la operacin del negocio, pero deben considerarse las
estrategias tecnolgicas necesarias para la implementacin de una
arquitectura completa de data &arehouse.
)ntroduccin al /oncepto Data *arehousing
Introduccin al Concepto Data Warehousing
Data &arehousing es el centro de la arquitectura para los sistemas de
informacin en la dcada de los 012. $oporta el procesamiento
3
inform#tico al proveer una plataforma slida, a partir de los datos
histricos para hacer el an#lisis. 3acilita la integracin de sistemas de
aplicacin no integrados. Organiza almacena los datos que se
necesitan para el procesamiento analtico, inform#tico sobre una
amplia perspectiva de tiempo.
(n Data *arehouse o Depsito de Datos es una coleccin de datos
orientado a temas, integrado, no vol#til, de tiempo variante, que se usa
para el soporte del proceso de toma de decisiones gerenciales.
$e puede caracterizar un data &arehouse haciendo un contraste de
cmo los datos de un negocio almacenados en un data &arehouse,
difieren de los datos operacionales usados por las aplicaciones de
produccin.
Base de Datos
Operacional
Data Warehouse
Datos Operacionales Datos del negocio para
)nformacin
Orientado a la
aplicacin
Orientado al su!eto
Actual Actual 4 histrico
Detallada Detallada 4 m#s
resumida
/ambia
continuamente
'stable
'l ingreso de datos en el data &arehouse viene desde el ambiente
operacional en casi todos los casos. 'l data &arehouse es siempre un
almacn de datos transformados separados fsicamente de la
aplicacin donde se encontraron los datos en el ambiente operacional.
$istemas de )nformacin
4
Sistemas de Inormacin
"os sistemas de informacin se han dividido de acuerdo al siguiente
esquema5
Sistemas Estrat!gicos, orientados a soportar la toma de
decisiones, facilitan la labor de la direccin, proporcion#ndole un
soporte b#sico, en forma de me!or informacin, para la toma de
decisiones. $e caracterizan porque son sistemas sin carga
peridica de traba!o, es decir, su utilizacin no es predecible, al
contrario de los casos anteriores, cua utilizacin es peridica.
Destacan entre estos sistemas5 los $istemas de )nformacin
6erencial ,7)$-, $istemas de )nformacin '!ecutivos ,')$-,
$istemas de )nformacin 6eoreferencial ,6)$-, $istemas de
$imulacin de 8egocios ,9)$ que en la pr#ctica son sistemas
expertos o de )nteligencia Artificial : A)-.
Sistemas T"cticos, dise%ados para soportar las actividades de
coordinacin de actividades mane!o de documentacin,
definidos para facilitar consultas sobre informacin almacenada
en el sistema, proporcionar informes , en resumen, facilitar la
gestin independiente de la informacin por parte de los niveles
intermedios de la organizacin.
Destacan entre ellos5 los $istemas Ofim#ticos ,OA-, $istemas de
.ransmisin de 7ensa!era ,/orreo electrnico $ervidor de
fax-, coordinacin control de tareas ,*or; 3lo&- tratamiento
5
de documentos ,)magen, .r#mite 9ases de Datos
Documentales-.
Sistemas T!cnico # Operati$os, que cubren el n<cleo de
operaciones tradicionales de captura masiva de datos ,Data
'ntr- servicios b#sicos de tratamiento de datos, con tareas
predefinidas ,contabilidad, facturacin, almacn, presupuesto,
personal otros sistemas administrativos-. 'stos sistemas est#n
evolucionando con la irrupcin de censores, autmatas, sistemas
multimedia, bases de datos relacionales m#s avanzadas data
&arehousing.
Sistemas Interinstitucionales, este <ltimo nivel de sistemas de
informacin recin est# surgiendo, es consecuencia del
desarrollo organizacional orientado a un mercado de car#cter
global, el cual obliga a pensar e implementar estructuras de
comunicacin m#s estrechas entre la organizacin el mercado
,'mpresa 'xtendida, Organizacin )nteligente e )ntegracin
Organizacional-, todo esto a partir de la generalizacin de las
redes inform#ticas de alcance nacional global ,)8.'+8'.-,
que se convierten en vehculo de comunicacin entre la
organizacin el mercado, no importa dnde est la
organizacin ,)8.+A8'.-, el mercado de la institucin
,'=.+A8'.- el mercado ,+ed 6lobal-.
$in embargo, la tecnologa data &arehousing basa sus conceptos
diferencias entre dos tipos fundamentales de sistemas de informacin
en todas las organizaciones5 los sistemas tcnico : operacionales los
sistemas de soporte de decisiones. 'ste <ltimo es la base de un data
&arehouse.
/aractersticas de un Data *arehouse
o Orientado a .emas
o )ntegracin
o De .iempo >ariante
o De .iempo >ariante
6
Caracter%sticas de un Data Warehouse
'ntre las principales se tiene5
Orientado al tema
)ntegrado
De tiempo variante
8o vol#til
Orientado a Temas
(na primera caracterstica del data &arehouse es que la informacin
se clasifica en base a los aspectos que son de inters para la
empresa. $iendo as, los datos tomados est#n en contraste con los
cl#sicos procesos orientados a las aplicaciones. 'n la 3igura 8? @ se
muestra el contraste entre los dos tipos de orientaciones.
'l ambiente operacional se dise%a alrededor de las aplicaciones
funciones tales como prstamos, ahorros, tar!eta bancaria depsitos
para una institucin financiera. Aor e!emplo, una aplicacin de ingreso
de rdenes puede acceder a los datos sobre clientes, productos
cuentas. "a base de datos combina estos elementos en una estructura
que acomoda las necesidades de la aplicacin.
'n el ambiente data &arehousing se organiza alrededor de su!etos
tales como cliente, vendedor, producto actividad. Aor e!emplo, para
un fabricante, stos pueden ser clientes, productos, proveedores
vendedores. Aara una universidad pueden ser estudiantes, clases
profesores. Aara un hospital pueden ser pacientes, personal mdico,
medicamentos, etc.
"a alineacin alrededor de las #reas de los temas afecta el dise%o la
implementacin de los datos encontrados en el data &arehouse. "as
principales #reas de los temas influen en la parte m#s importante de
la estructura clave.
7
"as aplicaciones est#n relacionadas con el dise%o de la base de datos
del proceso. 'n data &arehousing se enfoca el modelamiento de
datos el dise%o de la base de datos. 'l dise%o del proceso ,en su
forma cl#sica- no es separado de este ambiente.
"as diferencias entre la orientacin de procesos funciones de las
aplicaciones la orientacin a temas, radican en el contenido de la
8
data a escala detallada. 'n el data &arehouse se exclue la
informacin que no ser# usada por el proceso de sistemas de soporte
de decisiones, mientras que la informacin de las orientadas a las
aplicaciones, contiene datos para satisfacer de inmediato los
requerimientos funcionales de proceso, que pueden ser usados o no
por el analista de soporte de decisiones.
Otra diferencia importante est# en la interrelacin de la informacin.
"os datos operacionales mantienen una relacin continua entre dos o
m#s tablas basadas en una regla comercial que est# vigente. "as del
data &arehouse miden un espectro de tiempo las relaciones
encontradas en el data &arehouse son muchas. 7uchas de las reglas
comerciales , sus correspondientes relaciones de datos- se
representan en el data &arehouse, entre dos o m#s tablas.
Integracin
'l aspecto m#s importante del ambiente data &arehousing es que la
informacin encontrada al interior est# siempre integrada.
"a integracin de datos se muestra de muchas maneras5 en
convenciones de nombres consistentes, en la medida uniforme de
variables, en la codificacin de estructuras consistentes, en atributos
fsicos de los datos consistentes, fuentes m<ltiples otros.
'l contraste de la integracin encontrada en el data &arehouse con la
carencia de integracin del ambiente de aplicaciones, se muestran en
la 3igura 8? B, con diferencias bien marcadas.
A travs de los a%os, los dise%adores de las diferentes aplicaciones
han tomado sus propias decisiones sobre cmo se debera construir
una aplicacin. "os estilos dise%os personalizados se muestran de
muchas maneras.
$e diferencian en la codificacin, en las estructuras claves, en sus
caractersticas fsicas, en las convenciones de nombramiento otros.
"a capacidad colectiva de muchos de los dise%adores de aplicaciones,
para crear aplicaciones inconsistentes, es fabulosa. "a 3igura 8? B
mencionada, muestra algunas de las diferencias m#s importantes en
las formas en que se dise%an las aplicaciones.
9
Codiicacin
"os dise%adores de aplicaciones codifican el campo 6'8'+O en
varias formas. (n dise%ador representa 6'8'+O como una C7C una
C3C, otros como un C@C un C2C, otros como una C=C una CDC e
inclusive, como CmasculinoC CfemeninoC.
8o importa mucho cmo el 6'8'+O llega al data &arehouse.
Arobablemente C7C C3C sean tan buenas como cualquier otra
representacin. "o importante es que sea de cualquier fuente de
donde venga, el 6'8'+O debe llegar al data &arehouse en un estado
integrado uniforme.
Aor lo tanto, cuando el 6'8'+O se carga en el data &arehouse
desde una aplicacin, donde ha sido representado en formato C7C
C3C, los datos deben convertirse al formato del data &arehouse.
&edida de atri'utos
"os dise%adores de aplicaciones miden las unidades de medida de las
tuberas en una variedad de formas. (n dise%ador almacena los datos
de tuberas en centmetros, otros en pulgadas, otros en millones de
pies c<bicos por segundo otros en ardas.
Al dar medidas a los atributos, la transformacin traduce las diversas
unidades de medida usadas en las diferentes bases de datos para
transformarlas en una medida est#ndar com<n.
/ualquiera que sea la fuente, cuando la informacin de la tubera
llegue al data &arehouse necesitar# ser medida de la misma manera.
Con$enciones de (om'ramiento
'l mismo elemento es frecuentemente referido por nombres diferentes
en las diversas aplicaciones. 'l proceso de transformacin asegura
que se use preferentemente el nombre de usuario.
)uentes &*ltiples
10
'l mismo elemento puede derivarse desde fuentes m<ltiples. 'n este
caso, el proceso de transformacin debe asegurar que la fuente
apropiada sea usada, documentada movida al depsito.
.al como se muestra en la figura, los puntos de integracin afectan
casi todos los aspectos de dise%o : las caractersticas fsicas de los
datos, la disuntiva de tener m#s de una de fuente de datos, el
problema de est#ndares de denominacin inconsistentes, formatos de
fecha inconsistentes otros.
/ualquiera que sea la forma del dise%o, el resultado es el mismo : la
informacin necesita ser almacenada en el data &arehouse en un
modelo globalmente aceptable singular, aun cuando los sistemas
operacionales subacentes almacenen los datos de manera diferente.
/uando el analista de sistema de soporte de decisiones observe el
data &arehouse, su enfoque deber# estar en el uso de los datos que
se encuentre en el depsito, antes que preguntarse sobre la
confiabilidad o consistencia de los datos.
11
12
De Tiempo +ariante
.oda la informacin del data &arehouse es requerida en alg<n
momento. 'sta caracterstica b#sica de los datos en un depsito, es
mu diferente de la informacin encontrada en el ambiente
operacional. 'n stos, la informacin se requiere al momento de
acceder. 'n otras palabras, en el ambiente operacional, cuando usted
accede a una unidad de informacin, usted espera que los valores
requeridos se obtengan a partir del momento de acceso.
/omo la informacin en el data &arehouse es solicitada en cualquier
momento ,es decir, no Cahora mismoC-, los datos encontrados en el
depsito se llaman de Ctiempo varianteC.
"os datos histricos son de poco uso en el procesamiento operacional.
"a informacin del depsito por el contraste, debe incluir los datos
histricos para usarse en la identificacin evaluacin de tendencias.
,>er 3igura 8? E-.
'l tiempo variante se muestra de varias maneras5
@. "a m#s simple es que la informacin representa los datos sobre
un horizonte largo de tiempo : desde cinco a diez a%os. 'l
horizonte de tiempo representado para el ambiente operacional
es mucho m#s corto : desde valores actuales hasta sesenta a
noventa das.
13
"as aplicaciones que tienen un buen rendimiento est#n
disponibles para el procesamiento de transacciones, deben
llevar una cantidad mnima de datos si tienen cualquier grado de
flexibilidad. Aor ello, las aplicaciones operacionales tienen un
corto horizonte de tiempo, debido al dise%o de aplicaciones
rgidas.
B. "a segunda manera en la que se muestra el tiempo variante en
el data &arehouse est# en la estructura clave. /ada estructura
clave en el data &arehouse contiene, implcita o explcitamente,
un elemento de tiempo como da, semana, mes, etc.
'l elemento de tiempo est# casi siempre al pie de la clave
concatenada, encontrada en el data &arehouse. 'n ocasiones,
el elemento de tiempo existir# implcitamente, como el caso en
que un archivo completo se duplica al final del mes, o al cuarto.
E. "a tercera manera en que aparece el tiempo variante es cuando
la informacin del data &arehouse, una vez registrada
correctamente, no puede ser actualizada. "a informacin del
data &arehouse es, para todos los propsitos pr#cticos, una
serie larga de CsnapshotsC ,vistas instant#neas-.
Aor supuesto, si los snapshots de los datos se han tomado
incorrectamente, entonces pueden ser cambiados. Asumiendo
que los snapshots se han tomado adecuadamente, ellos no son
alterados una vez hechos. 'n algunos casos puede ser no tico,
e incluso ilegal, alterar los snapshots en el data &arehouse. "os
datos operacionales, siendo requeridos a partir del momento de
acceso, pueden actualizarse de acuerdo a la necesidad.
De Tiempo +ariante
"a informacin es <til slo cuando es estable. "os datos operacionales
cambian sobre una base momento a momento. "a perspectiva m#s
grande, esencial para el an#lisis la toma de decisiones, requiere una
base de datos estable.
'n la 3igura 8? F se muestra que la actualizacin ,insertar, borrar
modificar-, se hace regularmente en el ambiente operacional sobre
una base de registro por registro. Aero la manipulacin b#sica de los
14
datos que ocurre en el data &arehouse es mucho m#s simple. Ga dos
<nicos tipos de operaciones5 la carga inicial de datos el acceso a los
mismos. 8o ha actualizacin de datos ,en el sentido general de
actualizacin- en el depsito, como una parte normal de
procesamiento.
Ga algunas consecuencias mu importantes de esta diferencia
b#sica, entre el procesamiento operacional del data &arehouse. 'n
el nivel de dise%o, la necesidad de ser precavido para actualizar las
anomalas no es un factor en el data &arehouse, a que no se hace la
actualizacin de datos. 'sto significa que en el nivel fsico de dise%o,
se pueden tomar libertades para optimizar el acceso a los datos,
particularmente al usar la normalizacin desnormalizacin fsica.
Otra consecuencia de la simplicidad de la operacin del data
&arehouse est# en la tecnologa subacente, utilizada para correr los
datos en el depsito. .eniendo que soportar la actualizacin de registro
por registro en modo on:line ,como es frecuente en el caso del
procesamiento operacional- requiere que la tecnologa tenga un
fundamento mu comple!o deba!o de una fachada de simplicidad.
"a tecnologa permite realizar copias de seguridad recuperacin,
transacciones e integridad de los datos la deteccin solucin al
estancamiento que es m#s comple!o. 'n el data &arehouse no es
necesario el procesamiento.
15
"a fuente de casi toda la informacin del data &arehouse es el
ambiente operacional. A simple vista, se puede pensar que ha
redundancia masiva de datos entre los dos ambientes. Desde luego, la
primera impresin de muchas personas se centra en la gran
redundancia de datos, entre el ambiente operacional el ambiente de
data &arehouse. Dicho razonamiento es superficial demuestra una
carencia de entendimiento con respecto a qu ocurre en el data
&arehouse. De hecho, ha una mnima redundancia de datos entre
ambos ambientes.
$e debe considerar lo siguiente5
"os datos se filtran cuando pasan desde el ambiente operacional
al de depsito. 'xiste mucha data que nunca sale del ambiente
operacional. $lo los datos que realmente se necesitan
ingresar#n al ambiente de data &arehouse.
'l horizonte de tiempo de los datos es mu diferente de un
ambiente al otro. "a informacin en el ambiente operacional es
m#s reciente con respecto a la del data &arehouse. Desde la
perspectiva de los horizontes de tiempo <nicos, ha poca
superposicin entre los ambientes operacional de data
&arehouse.
'l data &arehouse contiene un resumen de la informacin que
no se encuentra en el ambiente operacional.
"os datos experimentan una transformacin fundamental cuando
pasa al data &arehouse. "a maor parte de los datos se alteran
significativamente al ser seleccionados movidos al data
&arehouse. Dicho de otra manera, la maora de los datos se
alteran fsica radicalmente cuando se mueven al depsito. 8o
es la misma data que reside en el ambiente operacional desde el
punto de vista de integracin.
'n vista de estos factores, la redundancia de datos entre los dos
ambientes es una ocurrencia rara, que resulta en menos de @H.
'structura del Data *arehouse
16
Estructura del Data Warehouse
"os data &arehouses tienen una estructura distinta. Ga niveles
diferentes de esquematizacin detalle que delimitan el data
&arehouse. "a estructura de un data &arehouse se muestra en la
3igura 8? I.
Detalle de datos actuales
'n gran parte, el inters m#s importante radica en el detalle de
los datos actuales, debido a que5
+efle!a las ocurrencias m#s recientes, las cuales son de
gran inters
's voluminoso, a que se almacena al m#s ba!o nivel de
granularidad.
/asi siempre se almacena en disco, el cual es de f#cil
acceso, aunque su administracin sea costosa comple!a.
Detalle de datos antiguos
"a data antigua es aquella que se almacena sobre alguna forma
de almacenamiento masivo. 8o es frecuentemente su acceso
se almacena a un nivel de detalle, consistente con los datos
detallados actuales. 7ientras no sea prioritario el
almacenamiento en un medio de almacena!e alterno, a causa del
gran volumen de datos unido al acceso no frecuente de los
mismos, es poco usual utilizar el disco como medio de
almacenamiento.
Datos ligeramente resumidos
"a data ligeramente resumida es aquella que proviene desde un
ba!o nivel de detalle encontrado al nivel de detalle actual. 'ste
nivel del data &arehouse casi siempre se almacena en disco.
"os puntos en los que se basa el dise%ador para construirlo son5
Jue la unidad de tiempo se encuentre sobre la
esquematizacin hecha.
Ju contenidos ,atributos- tendr# la data ligeramente
resumida.
17
A veces se encuentra en el ambiente de data &arehouse en
otros, fuera del lmite de la tecnologa que ampara al data
18
&arehouse. ,De todos modos, los datos completamente
resumidos son parte del data &arehouse sin considerar donde se
alo!an los datos fsicamente.-
&etadata
"a data antigua es aquella que se almacena sobre alguna forma
de almacenamiento masivo. 8o es frecuentemente su acceso
se almacena a un nivel de detalle, consistente con los datos
detallados actuales. 7ientras no sea prioritario el
almacenamiento en un medio de almacena!e alterno, a causa del
gran volumen de datos unido al acceso no frecuente de los
mismos, es poco usual utilizar el disco como medio de
almacenamiento.
'l componente final del data &arehouse es el de la metadata. De
muchas maneras la metadata se sit<a en una dimensin
diferente al de otros datos del data &arehouse, debido a que su
contenido no es tomado directamente desde el ambiente
operacional.
"a metadata !uega un rol especial mu importante en el data
&arehouse es usada como5
(n directorio para audar al analista a ubicar los
contenidos del data &arehouse.
(na gua para la trazabilidad de los datos, de cmo se
transforma, del ambiente operacional al de data
&arehouse.
(na gua de los algoritmos usados para la
esquematizacin entre el detalle de datos actual, con los
datos ligeramente resumidos stos, con los datos
completamente resumidos, etc.
"a metadata !uega un papel mucho m#s importante en un
ambiente data &arehousing que en un operacional cl#sico.
A fin de recordar los diferentes niveles de los datos encontrados en el
data &arehouse, considere el e!emplo mostrado en la 3igura 8? K.
19
'l detalle de ventas antiguas son las que se encuentran antes de
@11B. .odos los detalles de ventas desde @1LB ,o cuando el dise%ador
inici la coleccin de los archivos- son almacenados en el nivel de
detalle de datos m#s antiguo.
'l detalle actual contiene informacin desde @11B a @11E ,suponiendo
que @11E es el a%o actual-. 'n general, el detalle de ventas no se
ubica en el nivel de detalle actual hasta que haa pasado, por lo
menos, veinticuatro horas desde que la informacin de ventas llegue a
estar disponible en el ambiente operacional.
20
21
'n otras palabras, habra un retraso de tiempo de por lo menos
veinticuatro horas, entre el tiempo en que en el ambiente operacional
se haa hecho un nuevo ingreso de la venta el momento cuando la
informacin de la venta haa ingresado al data &arehouse.
'l detalle de las ventas son resumidas semanalmente por lnea de
subproducto por regin, para producir un almacenamiento de datos
ligeramente resumidos.
'l detalle de ventas semanal es adicionalmente resumido en forma
mensual, seg<n una gama de lneas, para producir los datos
completamente resumidos.
"a metadata contiene ,al menos-5
"a estructura de los datos
"os algoritmos usados para la esquematizacin
"a trazabilidad desde el ambiente operacional al data &arehouse
"a informacin adicional que no se esquematiza es almacenada en el
data &arehouse. 'n muchas ocasiones, all se har# el an#lisis se
producir# un tipo u otro de resumen. 'l <nico tipo de esquematizacin
que se almacena permanentemente en el data &arehouse, es el de los
datos que son usados frecuentemente. 'n otras palabras, si un
analista produce un resumen que tiene una probabilidad mu ba!a de
ser usado nuevamente, entonces la esquematizacin no es
almacenada en el data &arehouse.
Arquitectura de un Data *arehouse
o 'lementos constituentes de una Arquitectura Data
*arehouse
9ase de datos operacional M 8ivel de base de datos
externo
8ivel de acceso a la informacin
8ivel de acceso a los datos
8ivel de Directorio de Datos ,7etadata-
8ivel de 6estin de Arocesos
22
8ivel de 7ensa!e de la Aplicacin
8ivel Data *arehouse ,3sico-
8ivel de Organizacin de Datos
o Operaciones en un Data *arehouse
$istemas Operacionales
'xtraccin, .ransformacin /arga de los Datos
7etadata
Acceso de usuario final
Alataforma del data &arehouse
Datos 'xternos
o 'volucin del Depsito
"eer de la pagina BB a la E@
Ar,uitectura de un Data Warehouse
(na de las razones por las que el desarrollo de un data &arehouse
crece r#pidamente, es que realmente es una tecnologa mu
entendible. De hecho, data &arehousing puede representar me!or la
estructura amplia de una empresa para administrar los datos
informacionales dentro de la organizacin. A fin de comprender cmo
se relacionan todos los componentes involucrados en una estrategia
data &arehousing, es esencial tener una Arquitectura Data
*arehouse.
23
Elementos constitu-entes de una Ar,uitectura Data
Warehouse
(na Arquitectura Data *arehouse ,Data *arehouse Architecture :
D*A- es una forma de representar la estructura total de datos,
comunicacin, procesamiento presentacin, que existe para los
usuarios finales que disponen de una computadora dentro de la
empresa.
"a arquitectura se constitue de un n<mero de partes interconectadas5
9ase de datos operacional M 8ivel de base de datos externo
8ivel de acceso a la informacin
8ivel de acceso a los datos
8ivel de directorio de datos ,7etadata-
8ivel de gestin de proceso
8ivel de mensa!e de la aplicacin
8ivel de data &arehouse
8ivel de organizacin de datos
Base de datos operacional . (i$el de 'ase de datos e/terno
24
"os sistemas operacionales procesan datos para apoar las
necesidades operacionales crticas. Aara hacer eso, se han creado las
bases de datos operacionales histricas que proveen una estructura
de procesamiento eficiente, para un n<mero relativamente peque%o de
transacciones comerciales bien definidas.
$in embargo, a causa del enfoque limitado de los sistemas
operacionales, las bases de datos dise%adas para soportar estos
sistemas, tienen dificultad al acceder a los datos para otra gestin o
propsitos inform#ticos.
'sta dificultad en acceder a los datos operacionales es amplificada por
el hecho que muchos de estos sistemas tienen de @2 a @I a%os de
antigNedad. 'l tiempo de algunos de estos sistemas significa que la
tecnologa de acceso a los datos disponible para obtener los datos
operacionales, es as mismo antigua.
/iertamente, la meta del data &arehousing es liberar la informacin
que es almacenada en bases de datos operacionales combinarla con
la informacin desde otra fuente de datos, generalmente externa.
/ada vez m#s, las organizaciones grandes adquieren datos
adicionales desde bases de datos externas. 'sta informacin inclue
tendencias demogr#ficas, economtricas, adquisitivas competitivas
,que pueden ser proporcionadas por )nstituciones Oficiales : )8')-.
)nternet o tambin llamada Cinformation superhigh&aC ,supercarretera
de la informacin- provee el acceso a m#s recursos de datos todos los
das.
(i$el de acceso a la inormacin
'l nivel de acceso a la informacin de la arquitectura data &arehouse,
es el nivel del que el usuario final se encarga directamente. 'n
particular, representa las herramientas que el usuario final
normalmente usa da a da. Aor e!emplo5 '=/'", "O.($ @:B:E,
3O/($, A//'$$, $A$, etc.
'ste nivel tambin inclue el hard&are soft&are involucrados en
mostrar informacin en pantalla emitir reportes de impresin, ho!as
de c#lculo, gr#ficos diagramas para el an#lisis presentacin. Gace
dos dcadas que el nivel de acceso a la informacin se ha expandido
25
enormemente, especialmente a los usuarios finales quienes se han
volcado a los A/$ monousuarios los A/$ en redes.
Actualmente, existen herramientas m#s m#s sofisticadas para
manipular, analizar presentar los datos, sin embargo, ha problemas
significativos al tratar de convertir los datos tal como han sido
recolectados que se encuentran contenidos en los sistemas
operacionales en informacin f#cil transparente para las
herramientas de los usuarios finales. (na de las claves para esto es
encontrar un lengua!e de datos com<n que puede usarse a travs de
toda la empresa.
(i$el de acceso a los datos
'l nivel de acceso a los datos de la arquitectura data &arehouse est#
involucrado con el nivel de acceso a la informacin para conversar en
el nivel operacional. 'n la red mundial de ho, el lengua!e de datos
com<n que ha surgido es $J". Originalmente, $J" fue desarrollado
por )97 como un lengua!e de consulta, pero en los <ltimos veinte a%os
ha llegado a ser el est#ndar para el intercambio de datos.
(no de los adelantos claves de los <ltimos a%os ha sido el desarrollo
de una serie de CfiltrosC de acceso a datos, tales como 'DAM$J" para
acceder a casi todo los $istemas de 6estin de 9ase de Datos ,Data
9ase 7anagement $stems : D97$s- sistemas de archivos de
datos, relacionales o no. 'stos filtros permiten a las herramientas de
acceso a la informacin, acceder tambin a la data almacenada en
sistemas de gestin de base de datos que tienen veinte a%os de
antigNedad.
'l nivel de acceso a los datos no solamente conecta D97$$
diferentes sistemas de archivos sobre el mismo hard&are, sino
tambin a los fabricantes protocolos de red. (na de las claves de
una estrategia data &arehousing es proveer a los usuarios finales con
Cacceso a datos universalesC.
'l acceso a los datos universales significa que, tericamente por lo
menos, los usuarios finales sin tener en cuenta la herramienta de
acceso a la informacin o ubicacin, deberan ser capaces de acceder
a cualquier o todos los datos en la empresa que es necesaria para
ellos, para hacer su traba!o.
26
'l nivel de acceso a los datos entonces es responsable de la
interfaces entre las herramientas de acceso a la informacin las
bases de datos operacionales. 'n algunos casos, esto es todo lo que
un usuario final necesita. $in embargo, en general, las organizaciones
desarrollan un plan mucho m#s sofisticado para el soporte del data
&arehousing.
(i$el de Directorio de Datos 0&etadata1
A fin de proveer el acceso a los datos universales, es absolutamente
necesario mantener alguna forma de directorio de datos o repositorio
de la informacin metadata. "a metadata es la informacin alrededor
de los datos dentro de la empresa.
"as descripciones de registro en un programa /O9O" son metadata.
.ambin lo son las sentencias D)7'8$)O8 en un programa
3O+.+A8 o las sentencias a crear en $J".
A fin de tener un depsito totalmente funcional, es necesario tener una
variedad de metadata disponibles, informacin sobre las vistas de
datos de los usuarios finales e informacin sobre las bases de datos
operacionales. )dealmente, los usuarios finales deberan de acceder a
los datos desde el data &arehouse ,o desde las bases de datos
operacionales-, sin tener que conocer dnde residen los datos o la
forma en que se han almacenados.
(i$el de 2estin de 3rocesos
'l nivel de gestin de procesos tiene que ver con la programacin de
diversas tareas que deben realizarse para construir mantener el data
&arehouse la informacin del directorio de datos. 'ste nivel puede
depender del alto nivel de control de traba!o para muchos procesos
,procedimientos- que deben ocurrir para mantener el data &arehouse
actualizado.
(i$el de &ensa4e de la Aplicacin
'l nivel de mensa!e de la aplicacin tiene que ver con el transporte de
informacin alrededor de la red de la empresa. 'l mensa!e de
aplicacin se refiere tambin como CsubproductoC, pero puede
involucrar slo protocolos de red. Auede usarse por e!emplo, para
27
aislar aplicaciones operacionales o estratgicas a partir del formato de
datos exacto, recolectar transacciones o los mensa!es entregarlos a
una ubicacin segura en un tiempo seguro.
(i$el Data Warehouse 0)%sico1
'n el data &arehouse ,n<cleo- es donde ocurre la data actual, usada
principalmente para usos estratgicos. 'n algunos casos, uno puede
pensar del data &arehouse simplemente como una vista lgica o
virtual de datos. 'n muchos e!emplos, el data &arehouse puede no
involucrar almacenamiento de datos.
'n un data &arehouse fsico, copias, en algunos casos, muchas
copias de datos operacionales Mo externos, son almacenados
realmente en una forma que es f#cil de acceder es altamente
flexible. /ada vez m#s, los data &arehouses son almacenados sobre
plataformas clienteMservidor, pero por lo general se almacenan sobre
mainframes.
(i$el de Organi5acin de Datos
'l componente final de la arquitectura data &arehouse es la
organizacin de los datos. $e llama tambin gestin de copia o rplica,
pero de hecho, inclue todos los procesos necesarios como
seleccionar, editar, resumir, combinar cargar datos en el depsito
acceder a la informacin desde bases de datos operacionales Mo
externas.
"a organizacin de datos involucra con frecuencia una programacin
comple!a, pero cada vez m#s, est#n cre#ndose las herramientas data
&arehousing para audar en este proceso. )nvolucra tambin
programas de an#lisis de calidad de datos filtros que identifican
modelos estructura de datos dentro de la data operacional existente.
Operaciones en un Data Warehouse
'n la 3igura 8? L se muestra algunos de los tipos de operaciones que
se efect<an dentro de un ambiente data &arehousing.
28
Sistemas Operacionales
"os datos administrados por los sistemas de aplicacin operacionales
son la fuente principal de datos para el data &arehouse.
"as bases de datos operacionales se organizan como archivos
indexados ,(3A$, >$A7-, bases de datos de redesM!er#rquicas ,):D:
$M)), )7$, )D7$- o sistemas de base de datos relacionales ,D9B,
O+A/"', )83O+7)=, etc.-. $eg<n las encuestas, aproximadamente
del O2H a L2H de las bases de datos de las empresas se organizan
usando D97$$ no relacional.
E/traccin6 Transormacin - Carga de los Datos
$e requieren herramientas de gestin de datos para extraer datos
desde bases de datos Mo archivos operacionales, luego es necesario
manipular o transformar los datos antes de cargar los resultados en el
data &arehouse.
.omar los datos desde varias bases de datos operacionales
transformarlos en datos requeridos para el depsito, se refiere a la
transformacin o a la integracin de datos. "as bases de datos
29
operacionales, dise%adas para el soporte de varias aplicaciones de
produccin, frecuentemente difieren en el formato.
"os mismos elementos de datos, si son usados por aplicaciones
diferentes o administrados por diferentes soft&are D97$, pueden
definirse al usar nombres de elementos inconsistentes, que tienen
formatos inconsistentes Mo ser codificados de manera diferente. .odas
estas inconsistencias deben resolverse antes que los elementos de
datos sean almacenados en el data &arehouse.
&etadata
Otro paso necesario es crear la metadata. "a metadata ,es decir,
datos acerca de datos- describe los contenidos del data &arehouse.
"a metadata consiste de definiciones de los elementos de datos en el
depsito, sistema,s- del ,os- elemento,s- fuente. /omo la data, se
integra transforma antes de ser almacenada en informacin similar.
Acceso de usuario inal
"os usuarios acceden al data &arehouse por medio de herramientas
de productividad basadas en 6() ,6raphical (ser )nterface : )nterface
gr#fica de usuario-. Aueden proveerse a los usuarios del data
&arehouse muchos de estos tipos de herramientas.
'stos pueden incluir soft&are de consultas, generadores de reportes,
procesamiento analtico en lnea, herramientas dataMvisual mining, etc.,
dependiendo de los tipos de usuarios sus requerimientos
particulares. $in embargo, una sola herramienta no satisface todos los
requerimientos, por lo que es necesaria la integracin de una serie de
herramientas.
3lataorma del data 7arehouse
"a plataforma para el data &arehouse es casi siempre un servidor de
base de datos relacional. /uando se manipulan vol<menes mu
grandes de datos puede requerirse una configuracin en bloque de
servidores (8)= con multiprocesador simtrico ,$7A- o un servidor
con procesador paralelo masivo ,7AA- especializado.
30
"os extractos de la data integradaMtransformada se cargan en el data
&arehouse. (no de los m#s populares +D97$s disponibles para data
&arehousing sobre la plataforma (8)= ,$7A 7AA- generalmente es
.eradata. "a eleccin de la plataforma es crtica. 'l depsito crecer#
ha que comprender los requerimientos despus de E o I a%os.
7uchas de las organizaciones quieran o no escogen una plataforma
por diversas razones5 el $istema = es nuestro sistema elegido o el
$istema D est# a disponible sobre un sistema (8)= que nosotros a
tenemos. (no de los errores m#s grandes que las organizaciones
cometen al seleccionar la plataforma, es que ellos presumen que el
sistema ,hard&are Mo D97$- escalar# con los datos.
'l sistema de depsito e!ecuta las consultas que se pasa a los datos
por el soft&are de acceso a los datos del usuario. Aunque un usuario
visualiza las consultas desde el punto de vista de un 6(), las
consultas tpicamente se formulan como pedidos $J", porque $J" es
un lengua!e universal el est#ndar de hecho para el acceso a datos.
Datos E/ternos
Dependiendo de la aplicacin, el alcance del data &arehouse puede
extenderse por la capacidad de acceder a la data externa. Aor
e!emplo, los datos accesibles por medio de servicios de computadora
en lnea ,tales como /ompu$erve America On "ine- Mo va )nternet,
pueden estar disponibles a los usuarios del data &arehouse.
E$olucin del Depsito
/onstruir un data &arehouse es una tarea grande. 8o es
recomendable emprender el desarrollo del data &arehouse de la
empresa como un proecto cualquiera. 7#s bien, se recomienda que
los requerimientos de una serie de fases se desarrollen e implementen
en modelos consecutivos que permitan un proceso de implementacin
m#s gradual e iterativo.
8o existe ninguna organizacin que haa triunfado en el desarrollo del
data &arehouse de la empresa, en un slo paso. 7uchas, sin
embargo, lo han logrado luego de un desarrollo paso a paso. "os
pasos previos evolucionan con!untamente con la materia que est#
siendo agregada.
31
"os datos en el data &arehouse no son vol#tiles es un repositorio de
datos de slo lectura ,en general-. $in embargo, pueden a%adirse
nuevos elementos sobre una base regular para que el contenido siga
la evolucin de los datos en la base de datos fuente, tanto en los
contenidos como en el tiempo.
(no de los desafos de mantener un data &arehouse, es idear
mtodos para identificar datos nuevos o modificados en las bases de
datos operacionales. Algunas maneras para identificar estos datos
incluen insertar fechaMtiempo en los registros de base de datos
entonces crear copias de registros actualizados copiar informacin
de los registros de transaccin Mo base de datos diarias.
'stos elementos de datos nuevos Mo modificados son extrados,
integrados, transformados agregados al data &arehouse en pasos
peridicos programados. /omo se a%aden las nuevas ocurrencias de
datos, los datos antiguos son eliminados. Aor e!emplo, si los detalles
de un su!eto particular se mantienen por I a%os, como se agreg la
<ltima semana, la semana anterior es eliminada.
.ransformacion de Datos 7etadata
o .ransformacin de Datos
o 7etadata
Transormacion de Datos - &etadata
Transormacin de Datos
(no de los desafos de cualquier implementacin de data &arehouse,
es el problema de transformar los datos. "a transformacin se encarga
de las inconsistencias en los formatos de datos la codificacin, que
pueden existir dentro de una base de datos <nica que casi siempre
existen cuando m<ltiples bases de datos contribuen al data
&arehouse.
'n la 3igura 8? 1 se ilustra una forma de inconsistencia, en la cual el
gnero se codifica de manera diferente en tres bases de datos
32
diferentes. "os procesos de transformacin de datos se desarrollan
para direccionar estas inconsistencias.
"a transformacin de datos tambin se encarga de las inconsistencias
en el contenido de datos. (na vez que se toma la decisin sobre que
reglas de transformacin ser#n establecidas, deben crearse e incluirse
las definiciones en las rutinas de transformacin.
$e requiere una planificacin cuidadosa detallada para transformar
datos inconsistentes en con!untos de datos conciliables consistentes
para cargarlos en el data &arehouse.
&etadata
Otro aspecto de la arquitectura de data &arehouse es crear soporte a
la metadata. 7etadata es la informacin sobre los datos que se
alimenta, se transforma existe en el data &arehouse. 7etadata es un
concepto genrico, pero cada implementacin de la metadata usa
tcnicas mtodos especficos.
'stos mtodos tcnicas son dependientes de los requerimientos de
cada organizacin, de las capacidades existentes de los
33
requerimientos de interfaces de usuario. Gasta ahora, no ha normas
para la metadata, por lo que la metadata debe definirse desde el punto
de vista del soft&are data &arehousing, seleccionado para una
implementacin especfica.
.picamente, la metadata inclue los siguientes tems5
"as estructuras de datos que dan una visin de los datos al
administrador de datos.
"as definiciones del sistema de registro desde el cual se
construe el data &arehouse.
"as especificaciones de transformaciones de datos que ocurren
tal como la fuente de datos se replica al data &arehouse.
'l modelo de datos del data &arehouse ,es decir, los elementos de
datos sus relaciones-.
(n registro de cuando los nuevos elementos de datos se agregan al
data &arehouse cuando los elementos de datos antiguos se eliminan
o se resumen.
"os niveles de sumarizacin, el mtodo de sumarizacin las tablas
de registros de su data &arehouse.
Algunas implementaciones de la metadata tambin incluen
definiciones de la,s- vista,s- presentada,s- a los usuarios del data
&arehouse. .picamente, se definen vistas m<ltiples para favorecer las
preferencias variadas de diversos grupos de usuarios. 'n otras
implementaciones, estas descripciones se almacenan en un /at#logo
de )nformacin.
"os esquemas subesquemas para bases de datos operacionales,
forman una fuente ptima de entrada cuando se crea la metadata.
Gacer uso de la documentacin existente, especialmente cuando est#
disponible en forma electrnica, puede acelerar el proceso de
definicin de la metadata del ambiente data &arehousing.
"a metadata sirve, en un sentido, como el corazn del ambiente data
&arehousing. /rear definiciones de metadata completa efectiva
puede ser un proceso que consuma tiempo, pero lo me!or de las
34
definiciones si usted usa herramientas de gestin de soft&are
integrado, son los esfuerzos que dar#n como resultado el
mantenimiento del data &arehouse.
89: Transormacin de Datos - &etadata
Transormacin de Datos
(no de los desafos de cualquier implementacin de data &arehouse,
es el problema de transformar los datos. "a transformacin se encarga
de las inconsistencias en los formatos de datos la codificacin, que
pueden existir dentro de una base de datos <nica que casi siempre
existen cuando m<ltiples bases de datos contribuen al data
&arehouse.
'n la 3igura 8? 1 se ilustra una forma de inconsistencia, en la cual el
gnero se codifica de manera diferente en tres bases de datos
diferentes. "os procesos de transformacin de datos se desarrollan
para direccionar estas inconsistencias.
35
"a transformacin de datos tambin se encarga de las inconsistencias
en el contenido de datos. (na vez que se toma la decisin sobre que
reglas de transformacin ser#n establecidas, deben crearse e incluirse
las definiciones en las rutinas de transformacin.
$e requiere una planificacin cuidadosa detallada para transformar
datos inconsistentes en con!untos de datos conciliables consistentes
para cargarlos en el data &arehouse.
&etadata
Otro aspecto de la arquitectura de data &arehouse es crear soporte a
la metadata. 7etadata es la informacin sobre los datos que se
alimenta, se transforma existe en el data &arehouse. 7etadata es un
concepto genrico, pero cada implementacin de la metadata usa
tcnicas mtodos especficos.
'stos mtodos tcnicas son dependientes de los requerimientos de
cada organizacin, de las capacidades existentes de los
requerimientos de interfaces de usuario. Gasta ahora, no ha normas
para la metadata, por lo que la metadata debe definirse desde el punto
36
de vista del soft&are data &arehousing, seleccionado para una
implementacin especfica.
.picamente, la metadata inclue los siguientes tems5
"as estructuras de datos que dan una visin de los datos al
administrador de datos.
"as definiciones del sistema de registro desde el cual se
construe el data &arehouse.
"as especificaciones de transformaciones de datos que ocurren
tal como la fuente de datos se replica al data &arehouse.
'l modelo de datos del data &arehouse ,es decir, los elementos de
datos sus relaciones-.
(n registro de cuando los nuevos elementos de datos se agregan al
data &arehouse cuando los elementos de datos antiguos se eliminan
o se resumen.
"os niveles de sumarizacin, el mtodo de sumarizacin las tablas
de registros de su data &arehouse.
Algunas implementaciones de la metadata tambin incluen
definiciones de la,s- vista,s- presentada,s- a los usuarios del data
&arehouse. .picamente, se definen vistas m<ltiples para favorecer las
preferencias variadas de diversos grupos de usuarios. 'n otras
implementaciones, estas descripciones se almacenan en un /at#logo
de )nformacin.
"os esquemas subesquemas para bases de datos operacionales,
forman una fuente ptima de entrada cuando se crea la metadata.
Gacer uso de la documentacin existente, especialmente cuando est#
disponible en forma electrnica, puede acelerar el proceso de
definicin de la metadata del ambiente data &arehousing.
"a metadata sirve, en un sentido, como el corazn del ambiente data
&arehousing. /rear definiciones de metadata completa efectiva
puede ser un proceso que consuma tiempo, pero lo me!or de las
definiciones si usted usa herramientas de gestin de soft&are
37
integrado, son los esfuerzos que dar#n como resultado el
mantenimiento del data &arehouse.
)lu4o de Datos
'xiste un flu!o de datos normal predecible dentro del data
&arehouse. "a 3igura 8? @2 muestra ese flu!o.
"os datos ingresan al data &arehouse desde el ambiente operacional.
,Ga pocas excepciones a esta regla-.
Al ingresar al data &arehouse, la informacin va al nivel de detalle
actual, tal como se muestra. $e queda all se usa hasta que ocurra
uno de los tres eventos siguientes5
$ea eliminado
$ea resumido
$ea archivado
/on el proceso de desactualizacin en un data &arehouse se mueve
el detalle de la data actual a data antigua, basado en el tiempo de los
datos. 'l proceso de esquematizacin usa el detalle de los datos para
calcular los datos en forma ligera completamente resumidos.
Ga pocas excepciones al flu!o mostrado. $in embargo, en general,
para la maora de datos encontrados en un data &arehouse, el flu!o
de la informacin es como se ha explicado.
38
&edios de Almacenamiento para Inormacion
Antigua
'l smbolo mostrado en la 3igura 8? @@ para medios de
almacenamiento de informacin antigua es la cinta magntica, que
puede usarse para almacenar este tipo de informacin. De hecho ha
una amplia variedad de medios de almacenamiento que deben
considerarse para almacenar datos m#s antiguos. 'n la figura se
muestra algunos de esos medios.
Dependiendo del volumen de informacin, la frecuencia de acceso, el
costo de los medios el tipo de acceso, es probable que otros medios
de almacenamiento sirvan a las necesidades del nivel de detalle m#s
antiguo en el data &arehouse.
39
Usos del Data Warehouse
"os datos operacionales los datos del data &arehouse son
accedidos por usuarios que usan los datos de maneras diferentes.
Uso de Base de
Datos Operacionales
Uso de Data Warehouse
7uchos usuarios
concurrentes
Aocos usuarios
concurrentes
/onsultas predefinidas
actualizables
/onsultas comple!as,
frecuentemente no
anticipadas.
/antidades peque%as
de datos detallados
/antidades grandes de
datos detallados
+equerimientos de
respuesta inmediata
+equerimientos de
respuesta no crticos
&aneras dierentes de uso de datos
"os usuarios de un data &arehouse necesitan acceder a los
datos comple!os, frecuentemente desde fuentes m<ltiples de
formas no predecibles.
"os usuarios que accedan a los datos operacionales,
com<nmente efect<an tareas predefinidas que, generalmente
requieren acceso a una sola base de datos de una aplicacin.
Aor el contrario, los usuarios que accedan al data &arehouse,
efect<an tareas que requieren acceso a un con!unto de datos
desde fuentes m<ltiples frecuentemente no son predecibles. "o
<nico que se conoce ,si es modelada correctamente- es el
con!unto inicial de datos que se han establecido en el depsito.
Aor e!emplo, un especialista en el cuidado de la salud podra
necesitar acceder a los datos actuales e histricos para analizar
las tendencias de costos, usando un con!unto de consultas
40
predefinidas. Aor el contrario, un representante de ventas podra
necesitar acceder a los datos de cliente producto para evaluar
la eficacia de una campa%a de mar;eting, creando consultas
base o ad:hoc para encontrar nuevamente necesidades
definidas.
&aneras dierentes de uso de datos
$lo pocos usuarios acceden a los datos concurrentemente
;os usuarios generan un procesamiento no predeci'le comple4o
"os usuarios del data &arehouse generan consultas comple!as.
A veces la respuesta a una consulta conduce a la formulacin de
otras preguntas m#s detalladas, en un proceso llamado drilling
do&n. 'l data &arehouse puede incluir niveles de res<menes
m<ltiples, derivado de un con!unto principal, <nico, de datos
detallados, para soportar este tipo de uso.
'n efecto, los usuarios frecuentemente comienzan buscando en
los datos resumidos como identifican #reas de inters,
comienzan a acceder al con!unto de datos detallado. "os
con!untos de datos resumidos representan el CJuC de una
situacin los con!untos de datos detallados permiten a los
usuarios construir un cuadro sobre C/moC se ha derivado esa
situacin.
;as consultas de los usuarios accedan a cantidades grandes de
datos
Debido a la necesidad de investigar tendencias evaluar las
relaciones entre muchas clases de datos, las consultas al data
&arehouse permiten acceder a vol<menes mu grandes tanto de
data detallada como resumida. Debido a los requerimientos de
datos histricos, los data &arehouses evolucionan para llegar a
un tama%o m#s grande que sus orgenes operacionales ,de @2 a
@22 veces m#s grande-.
;as consultas de los usuarios no tienen tiempos de respuesta
cr%ticos
41
"as transacciones operacionales necesitan una respuesta
inmediata porque un cliente puede estar esperando una
respuesta. 'n el data &arehouse, por el contrario, tiene un
requerimiento de respuesta no crtico porque el resultado
frecuentemente se usa en un proceso de an#lisis toma de
decisiones. Aunque los tiempos de respuesta no son crticos, los
usuarios esperan una respuesta dentro del mismo da en que es
hecha la consulta.
Aor lo general, los diferentes niveles de datos dentro del data
&arehouse reciben diferentes usos. A m#s alto nivel de
esquematizacin, se tiene maor uso de los datos.
'n la 3igura 8? @B se muestra que ha maor uso de los datos
completamente resumidos, a diferencia de la informacin antigua
que apenas es usada.
Ga una buena razn para mover una organizacin al paradigma
sugerido en la figura, la utilizacin del recurso. "a data m#s
resumida, permite capturar los datos en forma m#s r#pida
eficiente. $i en una tarea se encuentra que se hace mucho
procesamiento a niveles de detalle del data &arehouse,
entonces se consumir# muchos recursos de m#quina. 's me!or
hacer el procesamiento a niveles m#s altos de esquematizacin
como sea posible.
Aara muchas tareas, el analista de sistemas de soporte de
decisiones usa la informacin detallada en un pre data
&arehouse. "a seguridad de la informacin de detalle se
consigue de muchas maneras, aun cuando estn disponibles
otros niveles de esquematizacin. (na de las actividades del
dise%ador de datos es el de desconectar al usuario del sistema
de soporte de decisiones del uso constante de datos con un
detalle m#s ba!o.
'l dise%ador de datos tiene dos predisposiciones5
@. )nstalar un sistema chargebac;, donde el usuario final
pague por los recursos consumidos
B. $e%alar el me!or tiempo de respuesta que puede obtenerse
cuando se traba!a con la data a un nivel alto de
42
esquematizacin, a diferencia de un pobre tiempo de
respuesta que resulta de traba!ar con los datos a un nivel
ba!o de detalle.
Aara ilustrar cmo un data &arehouse puede audar a una
organizacin a me!orar sus operaciones, se muestra un e!emplo
de lo que es el desarrollo de actividades sin tener un data
&arehouse.
43
E4emplo< 3reparacin de un reporte comple4o
/onsidere un problema bastante tpico en una compa%a de
fabricacin grande en el que se pide una informacin ,un
reporte- que no est# disponible.
'l informe inclue las finanzas actuales, el inventario la
condicin de personal, acompa%ado de comparaciones del mes
44
actual con el anterior el mismo mes del a%o anterior, con una
comparacin adicional de los E a%os precedentes. $e debe
explicar cada desviacin de la tendencia que cae fuera de un
rango predefinido.
$in un data &arehouse, el informe es preparado de la manera
siguiente5
"a informacin financiera actual se obtiene desde una base de
datos mediante un programa de extraccin de datos, el
inventario actual de otro programa de extraccin de otra base de
datos, la condicin actual de personal de un tercer programa de
extraccin la informacin histrica desde una copia de
seguridad de cinta magntica o /D:+O7.
"o m#s interesante es que se ha pedido otro informe que
contin<e al primer informe ,debido a que las preguntas se
originaron a partir del anterior-. 'l hecho es, que ninguno de los
traba!os realizados hasta aqu ,por e!emplo, diversos programas
de extraccin- se pueden usar para los prximos o para
cualquier reporte subsiguiente. )magine el tiempo el esfuerzo
que se ha desperdiciado por un enfoque anticuado. ,>er 3igura
8? @E-.
"as inconsistencias deben identificarse en cada con!unto de
datos extrados resolverse, por lo general, manualmente.
/uando se completa todo este procesamiento, el reporte puede
ser formateado, impreso, revisado transmitido.
8uevamente, el punto importante aqu es que todo el traba!o
desempe%ado para hacer este informe no afecta a otros reportes
que pueden solicitarse es decir, todos ellos son independientes
caros, desde el punto de vista de recursos productividad.
Al crear un data &arehouse combinar todos los datos
requeridos, se obtienen los siguientes beneficios5
"as inconsistencias de los datos se resuelven autom#ticamente
cuando los elementos de datos se cargan en el data &arehouse,
no manualmente, cada vez que se prepara un reporte.
45
"os errores que ocurrieron durante el proceso comple!o de la
preparacin del informe, se minimizan porque el proceso es
ahora mucho m#s simple.
"os elementos de datos son f#cilmente accesibles para otros
usos, no slo para un reporte particular.
$e crea una sola fuente.
Consideraciones Adicionales
Ga algunas consideraciones adicionales que deben tenerse en
cuenta al construir administrar el data &arehouse.
46
"a primera consideracin es respecto al ndice. "a informacin de los
niveles de esquematizacin m#s altos pueden ser libremente
indexados, mientras que las de los niveles m#s ba!os de detalle, por
ser tan voluminosa, pueden ser indexados moderadamente.
Aor lo mismo, los datos en los niveles m#s altos de detalle pueden ser
reestructurados f#cilmente, mientras que el volumen de datos en los
niveles m#s inferiores es tan grande, que los datos no pueden ser
f#cilmente reestructurados.
Aor consiguiente, el modelo de datos el dise%o cl#sico fundamentan
que el data &arehouse se aplique casi exclusivamente al nivel actual
de detalle. 'n otras palabras, las actividades de modelamiento de
datos no se aplican a los niveles de esquematizacin, en casi todos
los casos.
Otra consideracin estructural es la particin de la informacin en el
data &arehouse. 'l nivel de detalle actual es casi siempre
particionado.
"a particin puede hacerse de dos maneras5 al nivel de D97$ al
nivel de la aplicacin. 'n la particin D97$, se conoce las particiones
se administra por consiguiente. 'n el caso de la particin de las
aplicaciones, slo los programadores de las mismas conocen las
particiones la responsabilidad de su administracin es asignada a
ellos.
Al interior de las particiones D97$, mucho de los traba!os de
infraestructura se hacen autom#ticamente. Aero existe un elevado
grado de rigidez asociada con la gestin autom#tica de las particiones.
'n el caso de las particiones de las aplicaciones del data &arehouse,
la maor parte del traba!o recae sobre el programador, pero el
resultado final es que la gestin de datos es m#s flexible.
E4emplo de un Data Warehouse
'n la 3igura 8? @F se muestra un e!emplo hipottico de un data
&arehouse estructurado para un centro de produccin industrial.
47
Tarea< e/plicar la igura (o9 =:
$e muestra slo el detalle actual, no as los niveles de
esquematizacin ni los archivos de detalle m#s antiguos.
48
Adem#s, se observa que ha tablas del mismo tipo divididas a travs
del tiempo. Aor e!emplo, para el histrico de la fabricacin de las
piezas, ha muchas tablas separadas fsicamente, representando
cada una un trimestre diferente. "a estructura de los datos es
consistente con la tabla de la elaboracin de las piezas, aunque
fsicamente ha muchas tablas que lgicamente incluen el histrico.
Aara los diferentes tipos de tablas ha diferentes unidades de tiempo
que fsicamente dividen las unidades de informacin. 'l histrico de
fabricacin est# dividido por trimestres, el histrico de la orden de
piezas est# dividido por a%os el histrico de cliente es un archivo
<nico, no dividido por el tiempo.
As tambin, las diferentes tablas son vinculadas por medio de un
identificador com<n, piezas u rdenes de piezas ,la representacin de
la interrelacin en el ambiente de depsito toma una forma mu
diferente al de otros ambientes, tal como el ambiente operacional-.
E/cepciones en el Data Warehouse
7ientras que los componentes del data &arehouse traba!an de
acuerdo al modelo descrito para casi todos los datos, ha pocas
excepciones <tiles que necesitan ser discutidas.
(na de ellas es la data resumida p<blica, que es la data que ha sido
calculada fuera del data &arehouse pero es usada a travs de la
corporacin. "a data resumida p<blica se almacena administra en el
data &arehouse, aunque su c#lculo se haa hecho fuera de l.
(n e!emplo cl#sico de data resumida p<blica es el archivamiento
trimestral hecho por cada compa%a p<blica. "os contadores traba!an
para producir cantidades como rentas trimestrales, gastos trimestrales,
ganancias trimestrales otros. 'l traba!o hecho por los contadores
est# fuera del data &arehouse. $in embargo, esas cantidades
referenciales producidas por ellos se usan ampliamente dentro de la
corporacin para mar;eting, ventas, etc. (na vez que se haa hecho
el archivo, los datos se almacenan en el data &arehouse.
Otra excepcin no considerada en este documento es la data externa.
49
Otro excepcional tipo de datos a veces encontrados en un data
&arehouse es el detalle de los datos permanentes, que resulta de la
necesidad de una corporacin para almacenar la data a un nivel
detallado permanentemente por razones ticas o legales.
$i una corporacin expone a sus traba!adores a sustancias peligrosas
ha una necesidad de detalle de datos permanente. $i una
corporacin produce un producto que involucra la seguridad p<blica,
tal como la construccin de las partes de aviones, ha una necesidad
de datos permanentes. $i una corporacin se compromete con
contratos peligrosos, ha una necesidad de detalle de datos
permanentes.
"a organizacin simplemente no puede de!ar los detalles porque en
futuros a%os, en el caso de una demanda, una notificacin, un edificio
en disputa, etc., se incrementara la exposicin de la compa%a. Aor lo
tanto ha un <nico tipo de datos en el data &arehouse conocido como
detalle de datos permanentes.
'l detalle de datos permanentes comparte muchas de las mismas
consideraciones como otro data &arehouse, excepto que5
'l medio donde se almacena la data debe ser tan seguro como
sea posible.
"os datos deben permitir ser restaurados.
"os datos necesitan un tratamiento especial en su indexacin, a
que de otra manera los datos pueden no ser accesibles aunque
se haa almacenado con mucha seguridad.
Organizacin de un proecto
o 3actores en la Alanificacion de un Data *arehouse
o 'strategias para el Desarrollo de un Data *arehouse
o 'strategias para el Dise%o de un Data *arehouse
o 'strategias para el 6estion de un Data *arehouse
50
Organi5acin de un pro-ecto
"a planificacin es el proceso m#s importante que determina la clase
de tipo de estrategias data &arehousing que una organizacin iniciar#.
)actores en la 3laniicacion de un Data Warehouse
8o existe una frmula de garanta real para el xito de la construccin
de un data &arehouse, pero ha muchos puntos que contribuen a ese
ob!etivo.
A continuacin, se indican algunos puntos claves que deben
considerarse en la planificacin de un data &arehouse5
Esta'lecer una asociacin de usuarios6 gestin - grupos
's esencial involucrar tanto a los usuarios como a la gestin
para asegurar que el data &arehouse contenga informacin que
satisfaga los requerimientos de la empresa.
"a gestin puede audar a priorizar la fase de la implementacin
del data &arehouse, as como tambin la seleccin de
herramientas del usuario. "os usuarios la gestin !ustifican los
costos del data &arehouse sobre cmo ser# Csu ambienteC
est# basado primero en lo esperado segundo, en el valor
comercial real.
Seleccionar una aplicacin piloto con una alta pro'a'ilidad de
!/ito
(na aplicacin piloto de alcance limitado, con un reembolso
medible para los usuarios la gestin, establecer# el data
&arehouse como una tecnologa clave para la empresa. 'stos
mismos criterios ,alcance limitado, reembolso medible
beneficios claros para la empresa- se aplican a cada fase de la
implementacin de un data &arehouse.
Construir prototipos r"pida - recuentemente
"a <nica manera para asegurar que el data &arehouse re<na las
necesidades de los usuarios, es hacer el prototipo a lo largo del
51
proceso de implementacin a<n m#s all#, as como agregar los
nuevos datos Mo los modelos en forma permanente. 'l traba!o
continuo con los usuarios la gestin es, nuevamente, la clave.
Implementacin incremental
"a implementacin incremental reduce riesgos asegura que el
tama%o del proecto permanezca mane!able en cada fase.
Reportar acti$amente - pu'licar los casos e/itosos
"a retroalimentacin de los usuarios ofrece una excelente
oportunidad para publicar los hechos exitosos dentro de una
organizacin. "a publicidad interna sobre cmo el data
&arehouse ha audado a los usuarios a operar m#s
efectivamente puede apoar la construccin del data &arehouse
a lo largo de una empresa.
"a retroalimentacin del usuario tambin auda a comprender
cmo evoluciona la implementacin del data &arehouse a travs
del tiempo para reunir requerimientos de usuario nuevamente
identificados.
Estrategias para el Desarrollo de un Data Warehouse
Antes de desarrollar un data &arehouse, es crtico el desarrollo de una
estrategia equilibrada que sea apropiada para sus necesidades sus
usuarios.
"as preguntas que deben tenerse en cuenta son5
PJuin es el auditorioQ
P/u#l es el alcanceQ
PJu tipo de data &arehouse debera construirseQ
'xiste un n<mero de estrategias mediante las cuales las
organizaciones pueden conseguir sus data &arehouses.
3rimera
52
'stablecer un ambiente Cdata &arehouse virtualC, el cual puede
ser creado por5
)nstalacin de un con!unto de facilidades para acceso a
datos, directorio de datos gestin de proceso.
'ntrenamiento de usuarios finales.
/ontrol de cmo se usan realmente las instalaciones del
data &arehouse.
9asados en el uso actual, crear un data &arehouse fsico
para soportar los pedidos de alta frecuencia.
Segunda
/onstruir una copia de los datos operacionales desde un sistema
operacional <nico posibilitar al data &arehouse de una serie de
herramientas de acceso a la informacin.
'sta estrategia tiene la venta!a de ser simple r#pida.
Desafortunadamente, si los datos existentes son de mala calidad
Mo el acceso a los datos no ha sido previamente evaluado,
entonces se puede crear una serie de problemas.
Tercera
3inalmente, la estrategia data &arehousing ptima es
seleccionar el n<mero de usuarios basados en el valor de la
empresa hacer un an#lisis de sus puntos, preguntas
necesidades de acceso a datos.
De acuerdo a estas necesidades, se construen los prototipos
data &arehousing se prueban para que los usuarios finales
puedan experimentar modificar sus requerimientos.
(na vez se tenga un consenso general sobre las necesidades,
entonces se consiguen los datos provenientes de los sistemas
operacionales existentes a travs de la empresa Mo desde
fuentes externas de datos se cargan al data &arehouse.
$i se requieren herramientas de acceso a la informacin, se
puede tambin permitir a los usuarios finales tener acceso a los
53
datos requeridos usando sus herramientas favoritas propias, o
facilitar la creacin de sistemas de acceso a la informacin
multidimensional de alta performance, usando el n<cleo del data
&arehouse como base.
En conclusin
8o se tiene un enfoque <nico para construir un data &arehouse
que se adapte a las necesidades de las empresas, debido a que
las necesidades de cada una de ellas son diferentes, al igual que
su contexto.
Adem#s, como la tecnologa data &arehousing va
evolucionando, se aprende cada vez m#s m#s sobre el
desarrollo de data &arehouses, que resulta en que el <nico
enfoque pr#ctico para al almacenamiento de datos es la
evolucin de uno mismo.
Estrategias para el Dise>o de un Data Warehouse
'l dise%o de los data &arehouses es mu diferente al dise%o de los
sistemas operacionales tradicionales. $e pueden considerar los
siguientes puntos5
@. "os usuarios de los data &arehouses usualmente no conocen
mucho sobre sus requerimientos necesidades como los
usuarios operacionales.
B. 'l dise%o de un data &arehouse, con frecuencia involucra lo que
se piensa en trminos m#s amplios con conceptos del negocio
m#s difciles de definir que en el dise%o de un sistema
operacional. Al respecto, un data &arehouse est# bastante cerca
a +eingeniera de los Arocesos del 8egocio ,9usiness Arocess
+eengineering-.
E. 3inalmente, la estrategia de dise%o ideal para un data
&arehousing es generalmente de afuera hacia adentro ,outside:
in- a diferencia de arriba hacia aba!o ,top:do&n-.
A pesar que el dise%o del data &arehouse es diferente al usado en los
dise%os tradicionales, no es menos importante. 'l hecho que los
usuarios finales tengan dificultad en definir lo que ellos necesitan, no lo
54
hace menos necesario. 'n la pr#ctica, los dise%adores de data
&arehouses tienen que usar muchos CtrucosC para audar a sus
usuarios a CvisualizarC sus requerimientos. Aor ello, son esenciales los
prototipos de traba!o.
Estrategias para el 2estion de un Data Warehouse
"os data &arehouses requieren una comercializacin gestin mu
cuidadosa. Debe considerarse lo siguiente5
@. (n data &arehouse es una inversin buena slo si los usuarios
finales realmente pueden conseguir informacin vital m#s r#pida
m#s barata de lo que obtienen con la tecnologa actual.
/omo consecuencia, la gestin tiene que pensarse seriamente
sobre cmo quieren sus depsitos para su eficaz desempe%o
cmo conseguir#n llegar a los usuarios finales.
B. "a administracin debe reconocer que el mantenimiento de la
estructura del data &arehouse es tan crtico como el
mantenimiento de cualquier otra aplicacin de misin crtica.
De hecho, la experiencia ha demostrado que los data
&arehouses llegar#n a ser r#pidamente uno de los sistemas m#s
usados en cualquier organizacin.
E. "a gestin debe comprender tambin que si se embarcan sobre
un programa data &arehousing, se crear#n nuevas demandas
sobre sus sistemas operacionales, que son5
o Demandas para me!orar datos
o Demandas para una data consistente
o Demandas para diferentes tipos de datos, etc.
Desarrollo de un proecto
o PAorque /onstruir 9loques de Data *arehouseQ
o /onsideraciones Arevias al Desarrollo de un Data
*arehouse
Alcance de un Data *arehouse
55
+edundancia de Datos
.ipo de (suario 3inal
o 'lementos /laves para el Desarrollo de un Data
*arehouse
Dise%o de la Arquitectura
$istemas de 6estin de 9ases de Datos
8uevas Dimensiones
/ombinacion de la Arquitectura con el $istema de
6estion de 9ases de Datos
Alanes de 'xpansion
o /onfiabilidad de los Datos
Desarrollo de un pro-ecto
?3or,ue Construir Blo,ues de Data Warehouse@
Aara ampliar un negocio, se necesita que la informacin sea
comprensible. Aara muchas compa%as, esto significa un gran data
&arehouse que muestre, !unto a los datos no filtrados dispersos,
nuevas formas creativas de presentacin.
"as herramientas para capturar explorar los datos al detalle
evolucionan, as como nuestra capacidad para encontrar las formas de
explotar los datos recolectados.
'n los <ltimos @2 a%os se han combinado dos factores para audar a
la difusin de los data &arehouses. 'llos son5
@. $e ha reconocido los beneficios del procesamiento analtico en
lnea ,On "ine Analtical Arocessing : O"AA-, m#s all# de las
#reas tradicionales de mar;eting finanzas.
56
"as organizaciones saben que los conocimientos inmersos en
las masas de datos que rutinariamente recogen sobre sus
clientes, productos, operaciones actividades comerciales,
contribuen a reducir los costos de operacin aumentar las
rentas, por no mencionar que es m#s f#cil la toma de decisiones
estratgicas.
B. 'l crecimiento de la computacin clienteMservidor, ha creado
servidores de hard&are soft&are m#s poderosos sofisticados
que nunca. "os servidores de ho compiten con las mainframes
de aer ofrecen arquitecturas de memoria tecnolgicamente
superiores, procesadores de alta velocidad capacidades de
almacenamiento masivas.
Al mismo tiempo, los $istemas de 6estin de 9ase de Datos
,Data 9ase 7anagement $stems : D97$,s-- modernos,
proporcionan maor soporte para las estructuras de datos
comple!as.
De esta renovacin de hard&are soft&are surgen los data
&arehouses multiterabte que ahora se ve en ambientes de
clienteMservidor.
Consideraciones 3re$ias al Desarrollo de un Data
Warehouse
Ga muchas maneras para desarrollar data &arehouses como tantas
organizaciones existen. $in embargo, ha un n<mero de dimensiones
diferentes que necesitan ser consideradas5
Alcance de un data &arehouse
+edundancia de datos
.ipo de usuario final
"a 3igura 8? @I muestra un esquema bidimensional para analizar las
opciones b#sicas. "a dimensin horizontal indica el alcance del
depsito la vertical muestra la cantidad de datos redundantes que
deben almacenarse mantenerse.
57
Alcance de un Data Warehouse
'l alcance de un data &arehouse puede ser tan amplio como toda la
informacin estratgica de la empresa desde su inicio, o puede ser tan
limitado como un data &arehouse personal para un solo gerente
durante un a%o.
'n la pr#ctica, en la amplitud del alcance, el maor valor del data
&arehouse es para la empresa lo m#s caro consumidor de tiempo
es crear mantenerlo. /omo consecuencia de ello, la maora de las
organizaciones comienzan con data &arehouses funcionales,
departamentales o divisionales luego los expanden como usuarios
que proveen retroalimentacin.
Redundancia de Datos
Ga tres niveles esenciales de redundancia de datos que las
empresas deberan considerar en sus opciones de data &arehouse5
Data &arehouses CvirtualC o CAoint to AointC
Data &arehouses CcentralesC
Data &arehouses CdistribuidosC
58
8o se puede pensar en un <nico enfoque. /ada opcin adapta un
con!unto especfico de requerimientos una buena estrategia de
almacenamiento de datos, lo constitue la inclusin de las tres
opciones.
Data Warehouses A+irtualA o A3oint to 3ointA
(na estrategia de data &arehouses virtual, significa que los
usuarios finales pueden acceder a bases de datos operacionales
directamente, usando cualquier herramienta que posibilite Cla red
de acceso de datosC.
'ste enfoque provee flexibilidad as como tambin la cantidad
mnima de datos redundantes que deben cargarse
mantenerse. Adem#s, se pueden colocar las cargas de consulta
no planificadas m#s grandes, sobre sistemas operacionales.
/omo se ver#, el almacenamiento virtual es, frecuentemente,
una estrategia inicial, en organizaciones donde ha una amplia
,pero en su maor parte indefinida- necesidad de conseguir la
data operacional, desde una clase relativamente grande de
usuarios finales donde la frecuencia probable de pedidos es
ba!a.
"os depsitos virtuales de datos proveen un punto de partida
para que las organizaciones determinen qu usuarios finales
est#n buscando realmente.
Data Warehouses ACentralesA
'l concepto de data &arehouses centrales es el concepto inicial
que se tiene del data &arehouse. 's una <nica base de datos
fsica, que contiene todos los datos para un #rea funcional
especfica, departamento, divisin o empresa.
"os data &arehouses centrales se seleccionan por lo general
donde ha una necesidad com<n de los datos inform#ticos un
n<mero grande de usuarios finales a conectados a una red o
computadora central. Aueden contener datos para cualquier
perodo especfico de tiempo. /om<nmente, contienen datos de
sistemas operacionales m<ltiples.
59
"os data &arehouses centrales son reales. "os datos
almacenados en el data &arehouse son accesibles desde un
lugar deben cargarse mantenerse sobre una base regular.
8ormalmente se construen alrededor de +D97$ avanzados o,
en alguna forma, de servidor de base de datos inform#tico
multidimensional.
Data Warehouses Distri'uidos
"os data &arehouses distribuidos son aquellos en los cuales
ciertos componentes del depsito se distribuen a travs de un
n<mero de bases de datos fsicas diferentes.
/ada vez m#s, las organizaciones grandes est#n tomando
decisiones a niveles m#s inferiores de la organizacin a la vez,
llevando los datos que se necesitan para la toma de decisiones a
la red de #rea local ,"ocal Area 8et&or; : "A8- o computadora
local que sirve al que toma decisiones.
"os data &arehouses distribuidos com<nmente involucran la
maora de los datos redundantes como consecuencia de ello,
se tienen procesos de actualizacin carga m#s comple!os.
Tipo de Usuario )inal
De la misma forma que ha una gran cantidad de maneras para
organizar un data &arehouse, es importante notar que tambin ha
una gama cada vez m#s amplia de usuarios finales.
'n general, se puede considerar tres grandes categoras5
'!ecutivos gerentes
CAo&er usersC o C9uzo de )nformacinC ,analistas financieros
de negocios, ingenieros, etc.-
(suarios de soporte ,de oficina, administrativos, etc.-.
/ada una de estas categoras diferentes de usuario tienen su propio
con!unto de requerimientos para los datos, acceso, flexibilidad
facilidad de uso.
60
Elementos Cla$es para el Desarrollo de un Data
Warehouse
"os data &arehouses exitosos comienzan cuando se escogen e
integran satisfactoriamente tres elementos claves.
(n data &arehouse est# integrado por un servidor de hard&are los
D97$ que conforman el depsito. Del lado del hard&are, se debe
combinar la configuracin de plataformas de los servidores, mientras
se decide cmo aprovechar los saltos casi constantes de la potencia
del procesador. Del lado del soft&are, la comple!idad el alto costo de
los D97$es fuerzan a tomar decisiones dr#sticas balances
comparativos inevitables, con respecto a la integracin, requerimientos
de soporte, desempe%o, eficiencia confiabilidad.
$i se escoge incorrectamente, el data &arehouse se convierte en una
gran empresa con problemas difciles de traba!ar en su entorno,
costoso para arreglar difcil de !ustificar.
Aara conseguir que la implementacin del depsito tenga un inicio
exitoso, se necesita enfocar hacia tres bloques claves de construccin5
Arquitectura total del depsito
Arquitecturas del servidor
$istemas de 6estin de 9ase de Datos
A continuacin se presentan algunas recomendaciones para tomar las
correctas elecciones para su empresa.
Dise>o de la Ar,uitectura
Ar,uitectura del Depsito
'l desarrollo del data &arehouse comienza con la estructura lgica
fsica de la base de datos del depsito m#s los servicios requeridos
para operar mantenerlo. 'sta eleccin conduce a la seleccin de
otros dos tems fundamentales5 el servidor de hard&are el D97$.
61
"a plataforma fsica puede centralizarse en una sola ubicacin o
distribuirse regional, nacional o internacionalmente. A continuacin se
dan las siguientes alternativas de arquitectura5
@. (n plan para almacenar los datos de su compa%a, que podra
obtenerse desde fuentes m<ltiples internas externas, es
consolidar la base de datos en un data &arehouse integrado. 'l
enfoque consolidado proporciona eficiencia tanto en la potencia
de procesamiento como en los costos de soporte. ,>er 3igura 8?
@K-.
B. "a arquitectura global distribue informacin por funcin, con
datos financieros sobre un servidor en un sitio, los datos de
comercializacin en otro los datos de fabricacin en un tercer
lugar. ,>er 3igura 8? @O-
62
E. (na arquitectura por niveles almacena datos altamente
resumidos sobre una estacin de traba!o del usuario, con
res<menes m#s detallados en un segundo servidor la
informacin m#s detallada en un tercero.
"a estacin de traba!o del primer nivel mane!a la maora de los
pedidos para los datos, con pocos pedidos que pasan
sucesivamente a los niveles B E para la resolucin.
"as computadoras en el primer nivel pueden optimizarse para
usuarios de carga pesada volumen ba!o de datos, mientras que
63
los servidores de los otros niveles son m#s adecuados para
procesar los vol<menes pesados de datos, pero cargas m#s
livianas de usuario. ,>er figura 8? @L-.
Ar,uitectura del ser$idor
Al decidir sobre una estructura de depsito distribuida o centralizada,
tambin se necesita considerar los servidores que retendr#n
entregar#n los datos. 'l tama%o de su implementacin , las
necesidades de su empresa para escalabilidad, disponibilidad
gestin de sistemas- influir# en la eleccin de la arquitectura del
servidor.
@. $ervidores de un solo procesador
64
"os servidores de un slo procesador son los m#s f#ciles de
administrar, pero ofrecen limitada potencia de procesamiento
escalabilidad. Adem#s, un servidor slo presenta un <nico punto
de falla, limitando la disponibilidad garantizada del depsito.
$e puede ampliar un solo servidor de redes mediante
arquitecturas distribuidas que hacen uso de subproductos, tales
como Ambientes de /omputacin Distribuida ,Distributed
/omputing 'nvironment : D/'- o Arquitectura 9ro;er de Ob!eto
/om<n ,/ommon Ob!ects +equest 9ro;er Architecture :
/O+9A-, para distribuir el tr#fico a travs de servidores
m<ltiples.
'stas arquitecturas aumentan tambin la disponibilidad, debido a
que las operaciones pueden cambiarse al servidor de copia de
seguridad si un servidor falla, pero la gestin de sistemas es m#s
comple!a.
B. 7ultiprocesamiento simtrico
"as m#quinas de multiprocesamiento simtrico ,$mmetric
7ultiArocessing : $7A- aumentan mediante la adicin de
procesadores que comparten la memoria interna de los
servidores los dispositivos de almacenamiento de disco.
$e puede adquirir la maora de $7A en configuraciones
mnimas ,es decir, con dos procesadores- levantar cuando es
necesario, !ustificando el crecimiento con las necesidades de
procesamiento. "a escalabilidad de una m#quina $7A alcanza
su lmite en el n<mero m#ximo de procesadores soportados por
los mecanismos de conexin ,es decir, el bac;plane bus
compartido-.
E. Arocesamiento en paralelo masivo
(na m#quina de procesamiento en paralelo masivo ,7assivel
Aarallel Arocessing : 7AA-, conecta un con!unto de
procesadores por medio de un enlace de banda ancha de alta
velocidad. /ada nodo es un servidor, completo con su propio
procesador ,posiblemente $7A- memoria interna. Aara
optimizar una arquitectura 7AA, las aplicaciones deben ser
65
CparalelizadasC es decir, dise%adas para operar por separado, en
partes paralelas.
'sta arquitectura es ideal para la b<squeda de grandes bases de
datos. $in embargo, el D97$ que se selecciona debe ser uno
que ofrezca una versin paralela. D a<n entonces, se requiere un
dise%o afinamiento esenciales para obtener una ptima
distribucin de los datos prevenir Chot spotsC o Cdata s;e&C
,donde una cantidad desproporcionada del procesamiento es
cambiada a un nodo de procesamiento, debido a la particin de
los datos ba!o su control-.
F. Acceso de memoria no uniforme
"a dificultad de mover aplicaciones los D97$ a agrupaciones
o ambientes realmente paralelos ha conducido a nuevas
recientes arquitecturas, tales como el acceso de memoria no
uniforme ,8on (niform 7emor Access : 8(7A-.
8(7A crea una sola gran m#quina $7A al conectar m<ltiples
nodos $7A en un solo ,aunque fsicamente distribuida- banco de
memoria un e!emplo <nico de O$. 8(7A facilita el enfoque
$7A para obtener los beneficios de performance de las grandes
m#quinas 7AA ,con EB o m#s procesadores-, mientras se
mantiene las venta!as de gestin simplicidad de un ambiente
$7A est#ndar.
"o m#s importante de todo, es que existen D97$ aplicaciones
que pueden moverse desde un solo procesador o plataforma
$7A a 8(7A, sin modificaciones.
Sistemas de 2estin de Bases de Datos
"os data &arehouses ,con!untamente con los sistemas de soporte de
decisin RDecision $upport $stems : D$$S las aplicaciones
clienteMservidor-, fueron los primeros xitos para el D97$ relacional
,+elational Data 9ase 7anagement $stems : +D97$-.
7ientras la gran parte de los sistemas operacionales fueron resultados
de aplicaciones basadas en antiguas estructuras de datos, los
depsitos sistemas de soporte de decisiones aprovecharon el
66
+D97$ por su flexibilidad capacidad para efectuar consultas con un
<nico ob!etivo concreto.
"os +D97$ son mu flexibles cuando se usan con una estructura de
datos normalizada. 'n una base de datos normalizada, las estructuras
de datos son no redundantes representan las entidades b#sicas las
relaciones descritas por los datos ,por e!emplo productos, comercio
transaccin de ventas-. Aero un procesamiento analtico en lnea
,O"AA- tpico de consultas que involucra varias estructuras, requiere
varias operaciones de unin para colocar los datos !untos.
"a performance de los +D97$ tradicionales es me!or para consultas
basadas en claves ,C'ncuentre cuenta de cliente TB2@FC- que para
consultas basadas en el contenido ,C'ncuentre a todos los clientes con
un ingreso sobre U @2,222 que haan comprado un automvil en los
<ltimos seis mesesC-.
Aara el soporte de depsitos a gran escala para me!orar el inters
hacia las aplicaciones O"AA, los proveedores han a%adido nuevas
caractersticas al +D97$ tradicional. 'stas, tambin llamadas
caractersticas super relacionales, incluen el soporte para hard&are
de base de datos especializada, tales como la m#quina de base de
datos .eradata.
"os modelos super relacionales tambin soportan extensiones para
almacenar formatos operaciones relacionales ,ofrecidas por
proveedores como +'D9+)/V- diagramas de indexacin
especializados, tales como aquellos usados por $D9A$' )J. 'stas
tcnicas pueden me!orar el rendimiento para las recuperaciones
basadas en el contenido, al pre !untar tablas usando ndices o
mediante el uso de listas de ndice totalmente invertidos.
7uchas de las herramientas de acceso a los data &arehouses
explotan la naturaleza multidimensional del data &arehouse. Aor
e!emplo, los analistas de mar;eting necesitan buscar en los vol<menes
de ventas por producto, por mercado, por perodo de tiempo, por
promociones niveles anunciados por combinaciones de estos
diferentes aspectos.
"a estructura de los datos en una base de datos relacional tradicional,
facilita consultas an#lisis a lo largo de dimensiones diferentes que
67
han llegado a ser comunes. 'stos esquemas podran usar tablas
m<ltiples e indicadores para simular una estructura multidimensional.
Algunos productos D97$, tales como '$$9A$' 6'8.)(7,
implementan tcnicas de almacenamiento operadores que soportan
estructuras de datos multidimensionales.
7ientras las bases de datos multidimensionales ,7ultiDimensional
Databases : 7DD9s- audan directamente a manipular los ob!etos de
datos multidimensionales ,por e!emplo, la rotacin f#cil de los datos
para verlos entre dimensiones diferentes, o las operaciones de drill
do&n que sucesivamente exponen los niveles de datos m#s
detallados-, se debe identificar estas dimensiones cuando se
construa la estructura de la base de datos. As, agregar una nueva
dimensin o cambiar las vistas deseadas, puede ser engorroso
costoso. Algunos 7DD9$ requieren un recargue completo de la base
de datos cuando ocurre una reestructuracin.
(ue$as Dimensiones
(na limitacin de un +D97$ un 7DD9, es la carencia de soporte
para tipos de datos no tradicionales como im#genes, documentos
clips de vdeo M audio. $i usted necesita estos tipos de ob!etos en su
data &arehouse, busque un D97$ relacional : ob!eto ,'!emplo5
)""($.+A de )83O+7)=-.
Aor su enfoque en los valores de datos codificados, la maor parte de
los sistemas de base de datos pueden acomodar estos tipos de datos,
slo con extensiones basadas en cierta referencias, tales como
indicadores de archivos que contienen los ob!etos. 7uchos +D97$
almacenan los datos comple!os como ob!etos grandes binarios ,9inar
"arge Ob!ects : 9"O9s-. 'n este formato, los ob!etos no pueden ser
indexados, clasificados, o buscados por el servidor.
"os D97$ relacional : ob!eto, de otro lado, almacenan los datos
comple!os como ob!etos nativos pueden soportar las grandes
estructuras de datos encontradas en un ambiente orientado a ob!etos.
'stos sistemas de base de datos naturalmente acomodan no slo
tipos de datos especiales sino tambin los mtodos de procesamiento
que son <nicos para cada uno de ellos.
68
Aero una desventa!a del enfoque relacional : ob!eto, es que la
encapsulacin de los datos dentro de los tipos especiales de datos
,una serie de precios de stoc; a travs del tiempo en cada registro de
una tabla de stoc;, por e!emplo-, requiere de operadores
especializados para que hagan b<squedas simples previamente ,por
e!emplo, C'ncontrar todas las existencias que han mostrado una
disminucin en el precio de Abril a 7ao @11KC-.
"a seleccin del D97$ est# tambin su!eta al servidor de hard&are
que se usa. Algunos +D97$, como el D9B Aaralelo, )83O+7)= =A$
el O+A/"' Aaralelo, ofrecen versiones que soportan operaciones
paralelas. 'l soft&are paralelo divide consultas, uniones a travs de
procesadores m<ltiples corre estas operaciones simult#neamente
para me!orar la performance.
$e requiere el paralelismo para el me!or desempe%o en los servidores
7AA grandes $7A agrupados. 8o es a<n una opcin con 7DD9$ o
D97$ relacional : ob!eto.
'n la tabla C/mo comparar D97$C se resume los pro los contra de
los diferentes tipos de D97$ para operaciones de data &arehouse.
"a tabla C7atriz de Decisin del Data *arehouseC contiene algunos
e!emplos de cmo afectan estos criterios de decisin en la eleccin de
una arquitectura de servidorM data &arehouse.
?Cmo comparar DB&SES@
Caracter%s
ticas .
)uncin
Relac
ional
Supe
r
Relac
ional
&ultidim
ensional
0;gico1
&ultidim
ensional
0)%sico1
O'4et
o
Relac
ional
Estructur
as
(ormali5a
das

Tipos de
69
datos
a'stracto
s
3aralelis
mo

Estructur
as
&ultidime
nsionales

Drill#
Do7n

Rotacin
Operacio
nes
dependie
ntes de
datos

&atri5 de Decisin para el Data Warehouse
3ara
estos
am'iente
s999
Eli4a999
Re,uerim
ientos
comercial
es
Usuarios
Sopo
rte de
Siste
mas
Ar,uite
ctura
Ser$id
or
DB&S
Alcance5
Aeque%a "ocal /onsoli Aroces 7DD9
70
departam
ental
(sos5
an#lisis
de datos
:
ubicacin
<nica
mnim
o :
centra
l
prome
dio
dado :
paquete
ador
<nico o
$7A
Alcance5
departam
ental
(sos5
an#lisis
m#s
inform#tic
o
6randes
Analistas
en una
sola
ubicacinW
usuarios
inform#tic
os
dispersos
"ocal
mnim
o :
centra
l
prome
dio
$eccion
ado :
detalle
en
central :
resume
n en
local
6rupos
de
$7A
para
centralW
$A o
$7A
para
local
+D97
$ para
centra
l :
7DD9
para
local
Alcance5
empresa
(sos5
an#lisis
m#s
inform#tic
o
6randeW
geogr#fic
amente
disperso
/entr
al
fuerte
/entrali
zado
6rupos
de
$7A
Ob!eto
:
relacio
nal:
soport
e *eb
Alcance5
departam
ental
(sos5
investigac
Aeque%a
: pocas
ubicacion
es
/entr
al
fuerte
/entrali
zado
7AA +D97
$ con
soport
e
parale
71
in lo
Com'inacion de la Ar,uitectura con el Sistema de 2estion de
Bases de Datos
Aara seleccionar la combinacin correcta de la arquitectura del
servidor el D97$, primero es necesario comprender los
requerimientos comerciales de su compa%a, su poblacin de usuarios
las habilidades del personal de soporte.
"as implementaciones de los data &arehouses varan apreciablemente
de acuerdo al #rea. Algunos son dise%ados para soportar las
necesidades de an#lisis especfico para un solo departamento o #rea
funcional de una organizacin, tales como finanzas, ventas o
mar;eting. "as otras implementaciones re<nen datos a travs de toda
la empresa para soportar una variedad de grupos de usuarios
funciones. Aor regla general, a maor #rea del depsito, se requiere
maor potencia funcionalidad del servidor el D97$.
"os modelos de uso de los data &arehouses son tambin un factor.
"as consultas vistas de reportes preestructuradas frecuentemente
satisfacen a los usuarios inform#ticos, mientras que ha menos
demandas sobre el D97$ la potencia de procesamiento del servidor.
'l an#lisis comple!o, que es tpico de los ambientes de decisin :
soporte, requiere m#s poder flexibilidad de todos los componentes
del servidor. "as b<squedas masivas de grandes data &arehouses
favorecen el paralelismo en el D97$ el servidor.
"os ambientes din#micos, con sus requerimientos siempre
cambiantes, se adaptan me!or a una arquitectura de datos simple,
f#cilmente cambiable ,por e!emplo, una estructura relacional altamente
normalizada-, antes que una estructura intrincada que requiere una
reconstruccin despus de cada cambio ,por e!emplo, una estructura
multidimensional-.
'l valor de la data fresca requerida indica cu#n importante es para el
data &arehouse renovar cambiar los datos. "os grandes vol<menes
de datos que se refrescan a intervalos frecuentes, favorecen una
arquitectura fsicamente centralizada para soportar una captura de
datos eficiente minimizar el tiempo de transporte de los datos.
72
(n perfil de usuario debera identificar quines son los usuarios de su
data &arehouse, dnde se ubican cu#ntos necesita soportar. "a
informacin sobre cmo cada grupo espera usar los data &arehouses,
audar# a analizar los diversos estilos de uso.
/onocer la ubicacin fsica de sus usuarios audar# a determinar
cmo a qu #rea necesita distribuir el data &arehouse. (na
arquitectura por niveles podra usar servidores en el lugar de las redes
de #rea local. O puede necesitar un enfoque centralizado para
soportar a los traba!adores que se movilizan que traba!an en el
depsito desde sus laptops.
'l n<mero total de usuarios sus modelos de conexin determinan el
tama%o de sus servidores de depsito. "os tama%os de memoria los
canales de )MO deben soportar el n<mero previsto de usuarios
concurrentes ba!o condiciones normales, as como tambin en las
horas punta de su organizacin.
3inalmente, se debe factorizar la sofisticacin del personal de soporte.
"os recursos de los sistemas de informacin ,)nformation $stem : )$-
que est#n disponibles dentro de su organizacin, pueden limitar la
comple!idad o sofisticacin de la arquitectura del servidor. $in el
personal especializado interno o consultores externos, es difcil de
crear mantener satisfactoriamente una arquitectura que requiere
paralelismo en la plataforma del servidor ,7AA o $7A agrupado, por
e!emplo-.
3lanes de E/pansion
/omo su depsito evoluciona los datos que contiene llegan a ser
m#s accesible, los empleados externos al depsito podran descubrir
tambin el valor de sus datos. Al enlazar su data &arehouse a otros
sistemas ,tanto internos como externos a la organizacin-, se puede
compartir informacin con otras entidades comerciales con poco o sin
desarrollo. "os mensa!es de correo electrnico, servidores *'9
conexiones )ntranetM)nternet, pueden entregar listas por niveles a sus
proveedores o seg<n su condicin, a sus socios de negocio.
/omo los data &arehouses contin<an creciendo en sofisticacin uso,
los datos acumulados dentro de una empresa llegar#n a ser m#s
73
organizados, m#s interconectados, m#s accesibles , en general, m#s
disponibles a m#s empleados.
'l resultado ser# la obtencin de me!ores decisiones en el negocio,
m#s oportunidades m#s claridad de traba!o.
Conia'ilidad de los Datos
"a data CsuciaC es peligrosa. "as herramientas de limpieza
especializadas las formas de programar de los clientes proporcionan
redes de seguridad.
8o importa cmo est dise%ado un programa o cu#n h#bilmente se
use. $i se alimenta mala informacin, se obtendr# resultados
incorrectos o falsos. Desafortunadamente, los datos que se usan
satisfactoriamente en las aplicaciones de lnea comercial
operacionales pueden ser basura en lo que concierne a la aplicacin
data &arehousing.
74
"os datos CsuciosC pueden presentarse al ingresar informacin en una
entrada de datos ,por e!emplo, C$istemas $. A.C en lugar de C$istemas
$. A.C- o de otras causas. /ualquiera que sea, la data sucia da%a la
credibilidad de la implementacin del depsito completo. A
continuacin, en la 3igura 8? @1 se muestra un e!emplo de formato de
ventas en el que se pueden presentar errores.
75
Afortunadamente, las herramientas de limpieza de datos pueden ser
de gran auda. 'n algunos casos, puede crearse un programa de
limpieza efectivo. 'n el caso de bases de datos grandes, imprecisas e
inconsistentes, el uso de las herramientas comerciales puede ser casi
obligatorio.
Decidir qu herramienta usar es importante no solamente para la
integridad de los datos. $i se equivoca, se podra malgastar semanas
en recursos de programacin o cientos de miles de dlares en costos
de herramientas.
"a limpieza de una data CsuciaC es un proceso multifactico
comple!o. "os pasos a seguir son los siguientes5
@. Analizar sus datos corporativos para descubrir inexactitudes,
anomalas otros problemas.
B. .ransformar los datos para asegurar que sean precisos
coherentes.
E. Asegurar la integridad referencial, que es la capacidad del data
&arehouse, para identificar correctamente al instante cada ob!eto
del negocio, tales como un producto, un cliente o un empleado.
F. >alidar los datos que usa la aplicacin del data &arehouse

También podría gustarte