Está en la página 1de 53

1. ASPECTOS TEORICOS 1.

1 INTRODUCCION AL CONCEPTO DATA WAREHOUSING Data warehousing es el centro de la arquitectura para los sistemas de informacin en la dcada de los '90. Soporta el procesamiento informtico al proveer una plataforma slida, a partir de los datos histricos para hacer el anlisis. acilita la integracin de sistemas de aplicacin no integrados. !rgani"a # almacena los datos que se necesitan para el procesamiento anal$tico, informtico so%re una amplia perspectiva de tiempo. &n Data 'arehouse o Depsito de Datos es una coleccin de datos orientado a temas, integrado, no voltil, de tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales. Se puede caracteri"ar un data warehouse haciendo un contraste de cmo los datos de un negocio almacenados en un data warehouse, difieren de los datos operacionales usados por las aplicaciones de produccin.

Base de Datos Operaciona Datos !peracionales !rientado a la aplicacin *ctual Detallada ,am%ia continuamente

Data Ware!o"se Datos del negocio para (nformacin !rientado al su)eto *ctual + histrico Detallada + ms resumida -sta%le

Di#erentes tipos de in#or$aci%n -l ingreso de datos en el data warehouse viene desde el am%iente operacional en casi todos los casos. -l data warehouse es siempre un almacn de datos transformados # separados f$sicamente de la aplicacin donde se encontraron los datos en el am%iente operacional. 1.& SISTE'AS DE IN(OR'ACION -n las metodolog$as anteriores, pu%licadas por el (nstituto .acional de -stad$stica e (nformtica / (.-( # con el fin de proporcionar una visin ms clara, los sistemas de informacin se han dividido de acuerdo al siguiente esquema0

Siste$as Estrat)*icos, orientados a soportar la toma de decisiones, facilitan la la%or de la direccin, proporcionndole un soporte %sico, en forma de me)or informacin, para la toma de decisiones. Se caracteri"an porque son sistemas sin carga peridica de tra%a)o, es decir, su utili"acin no es predeci%le, al contrario de los casos anteriores, cu#a utili"acin es peridica.

Destacan entre estos sistemas0 los Sistemas de (nformacin 1erencial 23(S4, Sistemas de (nformacin -)ecutivos 2-(S4, Sistemas de (nformacin 1eoreferencial 21(S4, Sistemas de Simulacin de .egocios 25(S # que en la prctica son sistemas e6pertos o de (nteligencia *rtificial / *(4.

Siste$as T+cticos, dise7ados para soportar las actividades de coordinacin de actividades # mane)o de documentacin, definidos para facilitar consultas so%re informacin almacenada en el sistema, proporcionar informes #, en resumen, facilitar la gestin independiente de la informacin por parte de los niveles intermedios de la organi"acin.

Destacan entre ellos0 los Sistemas !fimticos 2!*4, Sistemas de 8ransmisin de 3ensa)er$a 2-/mail # a6 Server4, coordinacin # control de tareas 2'or9 low4 # tratamiento de documentos 2(magen, 8rmite # 5ases de Datos Documentarios4.

Siste$as T)cnico,Operati-os. que cu%ren el n:cleo de operaciones tradicionales de captura masiva de datos 2Data -ntr#4 # servicios %sicos de tratamiento de datos, con tareas predefinidas 2conta%ilidad, facturacin, almacn, presupuesto, personal # otros sistemas administrativos4. -stos sistemas estn evolucionando con la irrupcin de censores, autmatas, sistemas multimedia, %ases de datos relacionales ms avan"adas # data warehousing.

Siste$as Interinstit"ciona es, este :ltimo nivel de sistemas de informacin recin est surgiendo, es consecuencia del desarrollo organi"acional orientado a un mercado de carcter glo%al, el cual o%liga a pensar e implementar estructuras de comunicacin ms estrechas entre la organi"acin # el mercado 2-mpresa -6tendida, !rgani"acin (nteligente e (ntegracin !rgani"acional4, todo sto a partir de la generali"acin de las redes informticas de alcance nacional # glo%al 2(.8-;.-84, que se convierten en veh$culo de comunicacin entre la organi"acin # el mercado, no importa dnde est la organi"acin 2(.8;*.-84, el mercado de la institucin 2-<8;*.-84 # el mercado 2;ed 1lo%al4.

Sin em%argo, la tecnolog$a data warehousing %asa sus conceptos # diferencias entre dos tipos fundamentales de sistemas de informacin en todas las organi"aciones0 los sistemas tcnico/operacionales # los sistemas de soporte de decisiones. -ste :ltimo es la %ase de un data warehouse. 1.&.1 Siste$as t)cnico,operaciona es ,omo indica su nom%re, son los sistemas que a#udan a mane)ar la empresa con sus operaciones cotidianas. -stos son los sistemas que operan so%re el =%ac9%one= 2columna verte%ral4 de cualquier empresa o institucin, entre las que se tiene sistemas de ingreso de rdenes, inventario, fa%ricacin, planilla # conta%ilidad, entre otros. De%ido a su volumen e importancia en la organi"acin, los sistemas operacionales siempre han sido las primeras partes de la empresa a ser computari"ados. * travs de los a7os, estos sistemas operacionales se han e6tendido, revisado, me)orado # mantenido al punto que ho#, ellos son completamente integrados en la organi"acin. Desde luego, la ma#or$a de las organi"aciones grandes de todo el mundo, actualmente no podr$an operar sin sus sistemas operacionales # los datos que estos sistemas mantienen 1.&.& Siste$as de Soporte de Decisiones >or otra parte, ha# otras funciones dentro de la empresa que tienen que ver con el planeamiento, previsin # administracin de la organi"acin. -stas funciones son tam%in cr$ticas para la supervivencia de la organi"acin, especialmente en nuestro mundo de rpidos cam%ios. ?as funciones como =planificacin de mar9eting=, =planeamiento de ingenier$a= # =anlisis financiero=, requieren, adems, de sistemas de informacin que los soporte. >ero estas funciones son diferentes de las operacionales # los tipos de sistemas # la informacin requerida son tam%in diferentes. ?as funciones %asadas en el conocimiento son los sistemas de soporte de decisiones. -stos sistemas estn relacionados con el anlisis de los datos # la toma de decisiones, frecuentemente, decisiones importantes so%re cmo operar la empresa, ahora # en el futuro. -stos sistemas no slo tienen un enfoque diferente al de los operacionales, sino que, por lo general, tienen un alcance diferente. 3ientras las necesidades de los datos operacionales se enfocan normalmente hacia una sola rea, los datos para el soporte de decisiones, con frecuencia, toma un n:mero de reas diferentes # necesita cantidades grandes de datos operacionales relacionadas. Son estos sistemas so%re los se %asa la tecnolog$a data warehousing. 1./ CARACTERISTICAS DE UN DATA WAREHOUSE -ntre las principales se tiene0 o !rientado al tema o (ntegrado o De tiempo variante

.o voltil 1./.1 Orientado a Te$as

&na primera caracter$stica del data warehouse es que la informacin se clasifica en %ase a los aspectos que son de inters para la empresa. Siendo as$, los datos tomados estn en contraste con los clsicos procesos orientados a las aplicaciones. -n la igura .@ A se muestra el contraste entre los dos tipos de orientaciones.

-l am%iente operacional se dise7a alrededor de las aplicaciones # funciones tales como prstamos, ahorros, tar)eta %ancaria # depsitos para una institucin financiera. >or e)emplo, una aplicacin de ingreso de rdenes puede accesar a los datos so%re clientes, productos # cuentas. ?a %ase de datos com%ina estos elementos en una estructura que acomoda las necesidades de la aplicacin. -n el am%iente data warehousing se organi"a alrededor de su)etos tales como cliente, vendedor, producto # actividad. >or e)emplo, para un fa%ricante, stos pueden ser clientes, productos, proveedores # vendedores. >ara una universidad pueden ser estudiantes, clases # profesores. >ara un hospital pueden ser pacientes, personal mdico, medicamentos, etc.

?a alineacin alrededor de las reas de los temas afecta el dise7o # la implementacin de los datos encontrados en el data warehouse. ?as principales reas de los temas influ#en en la parte ms importante de la estructura clave. ?as aplicaciones estn relacionadas con el dise7o de la %ase de datos # del proceso. -n data warehousing se enfoca el modelamiento de datos # el dise7o de la %ase de datos. -l dise7o del proceso 2en su forma clsica4 no es separado de este am%iente. ?as diferencias entre la orientacin de procesos # funciones de las aplicaciones # la orientacin a temas, radican en el contenido de la data a nivel detallado. -n el data warehouse se e6clu#e la informacin que no ser usada por el proceso de sistemas de soporte de decisiones, mientras que la informacin de las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los requerimientos funcionales # de proceso, que pueden ser usados o no por el analista de soporte de decisiones. !tra diferencia importante est en la interrelacin de la informacin. ?os datos operacionales mantienen una relacin continua entre dos o ms ta%las %asadas en una regla comercial que est vigente. ?as del data warehouse miden un espectro de tiempo # las relaciones encontradas en el data warehouse son muchas. 3uchas de las reglas comerciales 2# sus correspondientes relaciones de datos4 se representan en el data warehouse, entre dos o ms ta%las. 1./.& Inte*raci%n -l aspecto ms importante del am%iente data warehousing es que la informacin encontrada al interior est siempre integrada. ?a integracin de datos se muestra de muchas maneras0 en convenciones de nom%res consistentes, en la medida uniforme de varia%les, en la codificacin de estructuras consistentes, en atri%utos f$sicos de los datos consistentes, fuentes m:ltiples # otros. -l contraste de la integracin encontrada en el data warehouse con la carencia de integracin del am%iente de aplicaciones, se muestran en la igura .@ B, con diferencias %ien marcadas. * travs de los a7os, los dise7adores de las diferentes aplicaciones han tomado sus propias decisiones so%re cmo se de%er$a construir una aplicacin. ?os estilos # dise7os personali"ados se muestran de muchas maneras. Se diferencian en la codificacin, en las estructuras claves, en sus caracter$sticas f$sicas, en las convenciones de nom%ramiento # otros. ?a capacidad colectiva de muchos de los dise7adores de aplicaciones, para crear aplicaciones inconsistentes, es fa%ulosa. ?a igura .@ B mencionada, muestra algunas de las diferencias ms importantes en las formas en que se dise7an las aplicaciones.

Codificacin. ?os dise7adores de aplicaciones codifican el campo 1-.-;! en varias formas. &n dise7ador representa 1-.-;! como una =3= # una = =, otros como un =A= # un =0=, otros como una =<= # una =C= e inclusive, como =masculino= # =femenino=.

.o importa mucho cmo el 1-.-;! llega al data warehouse. >ro%a%lemente =3= # = = sean tan %uenas como cualquier otra representacin. ?o importante es que sea de cualquier fuente de donde venga, el 1-.-;! de%e llegar al data warehouse en un estado integrado uniforme. >or lo tanto, cuando el 1-.-;! se carga en el data warehouse desde una aplicacin, donde ha sido representado en formato =3= # = =, los datos de%en convertirse al formato del data warehouse.

Medida de atributos. ?os dise7adores de aplicaciones miden las unidades de medida de las tu%er$as en una variedad de formas. &n dise7ador almacena los datos de tu%er$as en cent$metros, otros en pulgadas, otros en millones de pies c:%icos por segundo # otros en #ardas.

*l dar medidas a los atri%utos, la transformacin traduce las diversas unidades de medida usadas en las diferentes %ases de datos para transformarlas en una medida estndar com:n. ,ualquiera que sea la fuente, cuando la informacin de la tu%er$a llegue al data warehouse necesitar ser medida de la misma manera.

Convenciones de Nombramiento.- -l mismo elemento es frecuentemente referido por nom%res diferentes en las diversas aplicaciones. -l proceso de transformacin asegura que se use preferentemente el nom%re de usuario.

uentes M!"ti#"es.- -l mismo elemento puede derivarse desde fuentes m:ltiples. -n este caso, el proceso de transformacin de%e asegurar que la fuente apropiada sea usada, documentada # movida al depsito.

8al como se muestra en la figura, los puntos de integracin afectan casi todos los aspectos de dise7o / las caracter$sticas f$sicas de los datos, la dis#untiva de tener ms de una de fuente de datos, el pro%lema de estndares de denominacin inconsistentes, formatos de fecha inconsistentes # otros. ,ualquiera que sea la forma del dise7o, el resultado es el mismo / la informacin necesita ser almacenada en el data warehouse en un modelo glo%almente acepta%le # singular, aun cuando los sistemas operacionales su%#acentes almacenen los datos de manera diferente. ,uando el analista de sistema de soporte de decisiones o%serve el data warehouse, su enfoque de%er estar en el uso de los datos que se encuentre en el depsito, antes que preguntarse so%re la confia%ilidad o consistencia de los datos. 1././ De Tie$po 0ariante 8oda la informacin del data warehouse es requerida en alg:n momento. -sta caracter$stica %sica de los datos en un depsito, es mu# diferente de la informacin encontrada en el am%iente operacional. -n stos, la informacin se requiere al momento de accesar. -n otras pala%ras, en el am%iente operacional, cuando usted accesa a una unidad de informacin, usted espera que los valores requeridos se o%tengan a partir del momento de acceso. ,omo la informacin en el data warehouse es solicitada en cualquier momento 2es decir, no =ahora mismo=4, los datos encontrados en el depsito se llaman de =tiempo variante=. ?os datos histricos son de poco uso en el procesamiento operacional. ?a informacin del depsito por el contraste, de%e incluir los datos histricos para usarse en la identificacin # evaluacin de tendencias. 2Der igura .@ E4.

-l tiempo variante se muestra de varias maneras0 11 ?a ms simple es que la informacin representa los datos so%re un hori"onte largo de tiempo / desde cinco a die" a7os. -l hori"onte de tiempo representado para el am%iente operacional es mucho ms corto / desde valores actuales hasta sesenta a noventa d$as. ?as aplicaciones que tienen un %uen rendimiento # estn disponi%les para el procesamiento de transacciones, de%en llevar una cantidad m$nima de datos si tienen cualquier grado de fle6i%ilidad. >or ello, las aplicaciones operacionales tienen un corto hori"onte de tiempo, de%ido al dise7o de aplicaciones r$gidas. &1 ?a segunda manera en la que se muestra el tiempo variante en el data warehouse est en la estructura clave. ,ada estructura clave en el data warehouse contiene, impl$cita o e6pl$citamente, un elemento de tiempo como d$a, semana, mes, etc.

-l elemento de tiempo est casi siempre al pie de la clave concatenada, encontrada en el data warehouse. -n ocasiones, el elemento de tiempo e6istir impl$citamente, como el caso en que un archivo completo se duplica al final del mes, o al cuarto. /1 ?a tercera manera en que aparece el tiempo variante es cuando la informacin del data warehouse, una ve" registrada correctamente, no puede ser actuali"ada. ?a informacin del data warehouse es, para todos los propsitos prcticos, una serie larga de =snapshots= 2vistas instantneas4. >or supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces pueden ser cam%iados. *sumiendo que los snapshots se han tomado adecuadamente, ellos no son alterados una ve" hechos. -n algunos casos puede ser no tico, e incluso ilegal, alterar los snapshots en el data warehouse. ?os datos operacionales, siendo requeridos a partir del momento de acceso, pueden actuali"arse de acuerdo a la necesidad. 1./.2 No 0o +ti ?a informacin es :til slo cuando es esta%le. ?os datos operacionales cam%ian so%re una %ase momento a momento. ?a perspectiva ms grande, esencial para el anlisis # la toma de decisiones, requiere una %ase de datos esta%le. -n la igura .@ F se muestra que la actuali"acin 2insertar, %orrar # modificar4, se hace regularmente en el am%iente operacional so%re una %ase de registro por registro. >ero la manipulacin %sica de los datos que ocurre en el data warehouse es mucho ms simple. Ga# dos :nicos tipos de operaciones0 la carga inicial de datos # el acceso a los mismos. .o ha# actuali"acin de datos 2en el sentido general de actuali"acin4 en el depsito, como una parte normal de procesamiento. Ga# algunas consecuencias mu# importantes de esta diferencia %sica, entre el procesamiento operacional # del data warehouse. -n el nivel de dise7o, la necesidad de ser precavido para actuali"ar las anomal$as no es un factor en el data warehouse, #a que no se hace la actuali"acin de datos. -sto significa que en el nivel f$sico de dise7o, se pueden tomar li%ertades para optimi"ar el acceso a los datos, particularmente al usar la normali"acin # denormali"acin f$sica. !tra consecuencia de la simplicidad de la operacin del data warehouse est en la tecnolog$a su%#acente, utili"ada para correr los datos en el depsito. 8eniendo que soportar la actuali"acin de registro por registro en modo on/line 2como es frecuente en el caso del procesamiento operacional4 requiere que la tecnolog$a tenga un fundamento mu# comple)o de%a)o de una fachada de simplicidad.

?a tecnolog$a permite reali"ar %ac9up # recuperacin, transacciones e integridad de los datos # la deteccin # solucin al estancamiento que es ms comple)o. -n el data warehouse no es necesario el procesamiento. ?a fuente de casi toda la informacin del data warehouse es el am%iente operacional. * simple vista, se puede pensar que ha# redundancia masiva de datos entre los dos am%ientes. Desde luego, la primera impresin de muchas personas se centra en la gran redundancia de datos, entre el am%iente operacional # el am%iente de data warehouse. Dicho ra"onamiento es superficial # demuestra una carencia de entendimiento con respecto a qu ocurre en el data warehouse. De hecho, ha# una m$nima redundancia de datos entre am%os am%ientes. Se de%e considerar lo siguiente0

o o

o o

?os datos se filtran cuando pasan desde el am%iente operacional al de depsito. -6iste mucha data que nunca sale del am%iente operacional. Slo los datos que realmente se necesitan ingresarn al am%iente de data warehouse. -l hori"onte de tiempo de los datos es mu# diferente de un am%iente al otro. ?a informacin en el am%iente operacional es ms reciente con respecto a la del data warehouse. Desde la perspectiva de los hori"ontes de tiempo :nicos, ha# poca superposicin entre los am%ientes operacional # de data warehouse. -l data warehouse contiene un resumen de la informacin que no se encuentra en el am%iente operacional. ?os datos e6perimentan una transformacin fundamental cuando pasa al data warehouse. ?a ma#or parte de los datos se alteran significativamente al ser seleccionados # movidos al data warehouse. Dicho de otra manera, la ma#or$a de los datos se alteran f$sica # radicalmente cuando se mueven al depsito. .o es la misma data que reside en el am%iente operacional desde el punto de vista de integracin.

-n vista de estos factores, la redundancia de datos entre los dos am%ientes es una ocurrencia rara, que resulta en menos de AH. 1.2 ESTRUCTURA DEL DATA WAREHOUSE ?os data warehouses tienen una estructura distinta. Ga# niveles diferentes de esquemati"acin # detalle que delimitan el data warehouse. ?a estructura de un data warehouse se muestra en la igura .@ I. -n la figura, se muestran los diferentes componentes del data warehouse # son0

o o o o o

Detalle de datos actuales Detalle de datos antiguos Datos ligeramente resumidos Datos completamente resumidos 3eta data

o o o o o

$eta""e de datos actua"es.- -n gran parte, el inters ms importante radica en el detalle de los datos actuales, de%ido a que0 ;efle)a las ocurrencias ms recientes, las cuales son de gran inters -s voluminoso, #a que se almacena al ms %a)o nivel de granularidad. ,asi siempre se almacena en disco, el cual es de fcil acceso, aunque su administracin sea costosa # comple)a. $eta""e de datos anti%uos.- ?a data antigua es aquella que se almacena so%re alguna forma de almacenamiento masivo. .o es frecuentemente accesada # se almacena a un nivel de detalle, consistente con los datos detallados actuales. 3ientras no sea prioritario el almacenamiento en un medio de almacena)e alterno, a causa del gran volumen de datos unido al acceso no frecuente de los mismos, es poco usual utili"ar el disco como medio de almacenamiento.

o o o

$atos "i%eramente resumidos.- ?a data ligeramente resumida es aquella que proviene desde un %a)o nivel de detalle encontrado al nivel de detalle actual. -ste nivel del data warehouse casi siempre se almacena en disco. ?os puntos en los que se %asa el dise7ador para construirlo son0 Jue la unidad de tiempo se encuentre so%re la esquemati"acin hecha. Ju contenidos 2atri%utos4 tendr la data ligeramente resumida.

$atos com#"etamente resumidos.- -l siguiente nivel de datos encontrado en el data warehouse es el de los datos completamente resumidos. -stos datos son compactos # fcilmente accesi%les.

* veces se encuentra en el am%iente de data warehouse # en otros, fuera del l$mite de la tecnolog$a que ampara al data warehouse. 2De todos modos, los datos completamente resumidos son parte del data warehouse sin considerar donde se alo)an los datos f$sicamente.4

Metadata.- -l componente final del data warehouse es el de la metadata. De muchas maneras la metadata se sit:a en una dimensin diferente al de otros datos del data warehouse, de%ido a que su contenido no es tomado directamente desde el am%iente operacional.

?a metadata )uega un rol especial # mu# importante en el data warehouse # es usada como0

o o o

&n directorio para a#udar al analista a u%icar los contenidos del data warehouse. &na gu$a para el mapping de datos de cmo se transforma, del am%iente operacional al de data warehouse. &na gu$a de los algoritmos usados para la esquemati"acin entre el detalle de datos actual, con los datos ligeramente resumidos # stos, con los datos completamente resumidos, etc.

?a metadata )uega un papel mucho ms importante en un am%iente data warehousing que en un operacional clsico. * fin de recordar los diferentes niveles de los datos encontrados en el data warehouse, considere el e)emplo mostrado en la igura .@ K. -l detalle de ventas antiguas son las que se encuentran antes de A99B. 8odos los detalles de ventas desde A9LB 2o cuando el dise7ador inici la coleccin de los archivos4 son almacenados en el nivel de detalle de datos ms antiguo.

-l detalle actual contiene informacin desde A99B a A99E 2suponiendo que A99E es el a7o actual4. -n general, el detalle de ventas no se u%ica en el nivel de detalle actual hasta que ha#a pasado, por lo menos, veinticuatro horas desde que la informacin de ventas llegue a estar disponi%le en el am%iente operacional.

-n otras pala%ras, ha%r$a un retraso de tiempo de por lo menos veinticuatro horas, entre el tiempo en que en el am%iente operacional se ha#a hecho un nuevo ingreso de la venta # el momento cuando la informacin de la venta ha#a ingresado al data warehouse. -l detalle de las ventas son resumidas semanalmente por l$nea de su%producto # por regin, para producir un almacenamiento de datos ligeramente resumidos.

-l detalle de ventas semanal es adicionalmente resumido en forma mensual, seg:n una gama de l$neas, para producir los datos completamente resumidos. ?a metadata contiene 2al menos40

o o o

?a estructura de los datos ?os algoritmos usados para la esquemati"acin -l mapping desde el am%iente operacional al data warehouse

?a informacin adicional que no se esquemati"a es almacenada en el data warehouse. -n muchas ocasiones, all$ se har el anlisis # se producir un tipo u otro de resumen. -l :nico tipo de esquemati"acin que se almacena permanentemente en el data warehouse, es el de los datos que son usados frecuentemente. -n otras pala%ras, si un analista produce un resumen que tiene una pro%a%ilidad mu# %a)a de ser usado nuevamente, entonces la esquemati"acin no es almacenada en el data warehouse. 1.3 AR4UITECTURA DE UN DATA WAREHOUSE &na de las ra"ones por las que el desarrollo de un data warehouse crece rpidamente, es que realmente es una tecnolog$a mu# entendi%le. De hecho, data warehousing puede representar me)or la estructura amplia de una empresa para administrar los datos informacionales dentro de la organi"acin. * fin de comprender cmo se relacionan todos los componentes involucrados en una estrategia data warehousing, es esencial tener una *rquitectura Data 'arehouse. AR4UITECTURA DE UN DATA WAREHOUSE

1.3.1 E e$entos constit"5entes de "na Ar6"itect"ra Data Ware!o"se &na *rquitectura Data 'arehouse 2Data 'arehouse *rchitecture / D'*4 es una forma de representar la estructura total de datos, comunicacin, procesamiento # presentacin, que e6iste para los usuarios finales que disponen de una computadora dentro de la empresa. ?a arquitectura se constitu#e de un n:mero de partes interconectadas0

o o o o o o o o

5ase de datos operacional M .ivel de %ase de datos e6terno .ivel de acceso a la informacin .ivel de acceso a los datos .ivel de directorio de datos 23etadata4 .ivel de gestin de proceso .ivel de mensa)e de la aplicacin .ivel de data warehouse .ivel de organi"acin de datos

Base de datos operaciona 7 Ni-e de 8ase de datos e9terno

?os sistemas operacionales procesan datos para apo#ar las necesidades operacionales cr$ticas. >ara hacer eso, se han creado las %ases de datos operacionales histricas que proveen una estructura de procesamiento eficiente, para un n:mero relativamente peque7o de transacciones comerciales %ien definidas. Sin em%argo, a causa del enfoque limitado de los sistemas operacionales, las %ases de datos dise7adas para soportar estos sistemas, tienen dificultad al accesar a los datos para otra gestin o propsitos informticos. -sta dificultad en accesar a los datos operacionales es amplificada por el hecho que muchos de estos sistemas tienen de A0 a AI a7os de antigNedad. -l tiempo de algunos de estos sistemas significa que la tecnolog$a de acceso a los datos disponi%le para o%tener los datos operacionales, es as$ mismo antigua. ,iertamente, la meta del data warehousing es li%erar la informacin que es almacenada en %ases de datos operacionales # com%inarla con la informacin desde otra fuente de datos, generalmente e6terna. ,ada ve" ms, las organi"aciones grandes adquieren datos adicionales desde %ases de datos e6ternas. -sta informacin inclu#e tendencias demogrficas, economtricas, adquisitivas # competitivas 2que pueden ser proporcionadas por (nstituciones !ficiales / (.-(4. (nternet o tam%in llamada =information superhighwa#= 2supercarretera de la informacin4 provee el acceso a ms recursos de datos todos los d$as.

Ni-e de acceso a a in#or$aci%n

-l nivel de acceso a la informacin de la arquitectura data warehouse, es el nivel del que el usuario final se encarga directamente. -n particular, representa las herramientas que el usuario final normalmente usa d$a a d$a. >or e)emplo0 -6cel, ?otus A/B/E, ocus, *ccess, S*S, etc. -ste nivel tam%in inclu#e el hardware # software involucrados en mostrar informacin en pantalla # emitir reportes de impresin, ho)as de clculo, grficos # diagramas para el anlisis # presentacin. Gace dos dcadas que el nivel de acceso a la informacin se ha e6pandido enormemente, especialmente a los usuarios finales quienes se han volcado a las >,s monousuarias # las >,s en redes. *ctualmente, e6isten herramientas ms # ms sofisticadas para manipular, anali"ar # presentar los datos, sin em%argo, ha# pro%lemas significativos al tratar de convertir los datos tal como han sido recolectados # que se encuentran contenidos en los sistemas operacionales en informacin fcil # transparente para las herramientas de los usuarios finales. &na de las claves para esto es encontrar un lengua)e de datos com:n que puede usarse a travs de toda la empresa.

Ni-e de acceso a os datos

-l nivel de acceso a los datos de la arquitectura data warehouse est involucrado con el nivel de acceso a la informacin para conversar en el nivel operacional. -n la red mundial de ho#, el lengua)e de datos com:n que ha surgido es SJ?. !riginalmente, SJ? fue desarrollado por (53 como un lengua)e de consulta, pero en los :ltimos veinte a7os ha llegado a ser el estndar para el intercam%io de datos. &no de los adelantos claves de los :ltimos a7os ha sido el desarrollo de una serie de =filtros= de acceso a datos, tales como -D*MSJ? para accesar a casi todo los Sistemas de 1estin de 5ase de Datos 2Data 5ase 3anagement S#stems / D53Ss4 # sistemas de archivos de datos, relacionales o no. -stos filtros permiten a las herramientas de acceso a la informacin, accesar tam%in a la data almacenada en sistemas de gestin de %ase de datos que tienen veinte a7os de antigNedad. -l nivel de acceso a los datos no solamente conecta D53Ss diferentes # sistemas de archivos so%re el mismo hardware, sino tam%in a los fa%ricantes # protocolos de red. &na de las claves de una estrategia data warehousing es proveer a los usuarios finales con =acceso a datos universales=. -l acceso a los datos universales significa que, tericamente por lo menos, los usuarios finales sin tener en cuenta la herramienta de acceso a la informacin o u%icacin, de%er$an ser capaces de accesar a cualquier o todos los datos en la empresa que es necesaria para ellos, para hacer su tra%a)o. -l nivel de acceso a los datos entonces es responsa%le de la interfase entre las herramientas de acceso a la informacin # las %ases de datos operacionales. -n algunos casos, esto es todo lo que un usuario final necesita. Sin em%argo, en general, las organi"aciones desarrollan un plan mucho ms sofisticado para el soporte del data warehousing.

Ni-e de Directorio de Datos :'etadata;

* fin de proveer el acceso a los datos universales, es a%solutamente necesario mantener alguna forma de directorio de datos o repositorio de la informacin metadata. ?a metadata es la informacin alrededor de los datos dentro de la empresa. ?as descripciones de registro en un programa ,!5!? son metadata. 8am%in lo son las sentencias D(3-.S(!. en un programa !;8;*. o las sentencias a crear en SJ?. * fin de tener un depsito totalmente funcional, es necesario tener una variedad de metadata disponi%les, informacin so%re las vistas de datos de los usuarios finales e informacin so%re las %ases de datos operacionales. (dealmente, los usuarios finales de%er$an de accesar a los datos desde el data warehouse 2o desde las %ases de datos operacionales4, sin tener que conocer dnde residen los datos o la forma en que se han almacenados.

Ni-e de Gesti%n de Procesos

-l nivel de gestin de procesos tiene que ver con la programacin de diversas tareas que de%en reali"arse para construir # mantener el data warehouse # la informacin del directorio de datos. -ste nivel puede depender del alto nivel de control de tra%a)o para muchos procesos 2procedimientos4 que de%en ocurrir para mantener el data warehouse actuali"ado.

Ni-e de 'ensa<e de a Ap icaci%n

-l nivel de mensa)e de la aplicacin tiene que ver con el transporte de informacin alrededor de la red de la empresa. -l mensa)e de aplicacin se refiere tam%in como =su%producto=, pero puede involucrar slo protocolos de red. >uede usarse por e)emplo, para aislar aplicaciones operacionales o estratgicas a partir del formato de datos e6acto, recolectar transacciones o los mensa)es # entregarlos a una u%icacin segura en un tiempo seguro.

Ni-e Data Ware!o"se :(=sico;

-n el data warehouse 2n:cleo4 es donde ocurre la data actual, usada principalmente para usos estratgicos. -n algunos casos, uno puede pensar del data warehouse simplemente como una vista lgica o virtual de datos. -n muchos e)emplos, el data warehouse puede no involucrar almacenamiento de datos. -n un data warehouse f$sico, copias, en algunos casos, muchas copias de datos operacionales #Mo e6ternos, son almacenados realmente en una forma que es fcil de accesar # es altamente fle6i%le. ,ada ve" ms, los data warehouses son almacenados so%re plataformas clienteMservidor, pero por lo general se almacenan so%re mainframes.

Ni-e de Or*ani>aci%n de Datos

-l componente final de la arquitectura data warehouse es la organi"acin de los datos. Se llama tam%in gestin de copia o rplica, pero de hecho, inclu#e todos los procesos necesarios como seleccionar, editar, resumir, com%inar # cargar datos en el depsito # accesar a la informacin desde %ases de datos operacionales #Mo e6ternas. ?a organi"acin de datos involucra con frecuencia una programacin comple)a, pero cada ve" ms, estn crendose las herramientas data warehousing para a#udar en este proceso. (nvolucra tam%in programas de anlisis de calidad de datos # filtros que identifican modelos # estructura de datos dentro de la data operacional e6istente. 1.3.& Operaciones en "n Data Ware!o"se -n la igura .@ L se muestra algunos de los tipos de operaciones que se efect:an dentro de un am%iente data warehousing.

a; Siste$as Operaciona es ?os datos administrados por los sistemas de aplicacin operacionales son la fuente principal de datos para el data warehouse. ?as %ases de datos operacionales se organi"an como archivos inde6ados 2& *S, DS*34, %ases de datos de redesM)errquicas 2(/D/SM((, (3S, (D3S4 o sistemas de %ase de datos relacionales 2D5B, !racle, (nformi6, etc.4. Seg:n las encuestas, apro6imadamente del O0H a L0H de las %ases de datos de las empresas se organi"an usando D53Ss no relacional. 8; E9tracci%n. Trans#or$aci%n 5 Car*a de os Datos Se requieren herramientas de gestin de datos para e6traer datos desde %ases de datos #Mo archivos operacionales, luego es necesario manipular o transformar los datos antes de cargar los resultados en el data warehouse. 8omar los datos desde varias %ases de datos operacionales # transformarlos en datos requeridos para el depsito, se refiere a la transformacin o a la integracin de datos. ?as %ases de datos operacionales, dise7adas para el soporte de varias aplicaciones de produccin, frecuentemente difieren en el formato. ?os mismos elementos de datos, si son usados por aplicaciones diferentes o administrados por diferentes software D53S, pueden definirse al usar nom%res de elementos inconsistentes, que tienen formatos inconsistentes #Mo ser codificados de manera diferente. 8odas estas inconsistencias de%en resolverse antes que los elementos de datos sean almacenados en el data warehouse. c; 'etadata !tro paso necesario es crear la metadata. ?a metadata 2es decir, datos acerca de datos4 descri%e los contenidos del data warehouse. ?a metadata consiste de definiciones de los elementos de datos en el depsito, sistema2s4 del 2os4 elemento2s4 fuente. ,omo la data, se integra # transforma antes de ser almacenada en informacin similar. d; Acceso de "s"ario #ina ?os usuarios accesan al data warehouse por medio de herramientas de productividad %asadas en 1&( 21raphical &ser (nterface / (nterfase grfica de usuario4. >ueden proveerse a los usuarios del data warehouse muchos de estos tipos de herramientas. -stos pueden incluir software de consultas, generadores de reportes, procesamiento anal$tico en l$nea, herramientas dataMvisual mining, etc., dependiendo de los tipos de usuarios # sus requerimientos particulares.

Sin em%argo, una sola herramienta no satisface todos los requerimientos, por lo que es necesaria la integracin de una serie de herramientas. e; P ata#or$a de data ?are!o"se ?a plataforma para el data warehouse es casi siempre un servidor de %ase de datos relacional. ,uando se manipulan vol:menes mu# grandes de datos puede requerirse una configuracin en %loque de servidores &.(< con multiprocesador simtrico 2S3>4 o un servidor con procesador paralelo masivo 23>>4 especiali"ado. ?os e6tractos de la data integradaMtransformada se cargan en el data warehouse. &no de los ms populares ;D53Ss disponi%les para data warehousing so%re la plataforma &.(< 2S3> # 3>>4 generalmente es 8eradata. ?a eleccin de la plataforma es cr$tica. -l depsito crecer # ha# que comprender los requerimientos despus de E o I a7os. 3uchas de las organi"aciones quieran o no escogen una plataforma por diversas ra"ones0 el Sistema < es nuestro sistema elegido o el Sistema C est #a disponi%le so%re un sistema &.(< que nosotros #a tenemos. &no de los errores ms grandes que las organi"aciones cometen al seleccionar la plataforma, es que ellos presumen que el sistema 2hardware #Mo D53S4 escalar con los datos. -l sistema de depsito e)ecuta las consultas que se pasa a los datos por el software de acceso a los datos del usuario. *unque un usuario visuali"a las consultas desde el punto de vista de un 1&(, las consultas t$picamente se formulan como pedidos SJ?, porque SJ? es un lengua)e universal # el estndar de hecho para el acceso a datos. #; Datos E9ternos Dependiendo de la aplicacin, el alcance del data warehouse puede e6tenderse por la capacidad de accesar a la data e6terna. >or e)emplo, los datos accesi%les por medio de servicios de computadora en l$nea 2tales como ,ompuServe # *merica !n ?ine4 #Mo v$a (nternet, pueden estar disponi%les a los usuarios del data warehouse. A. E-o "ci%n de Dep%sito

,onstruir un data warehouse es una tarea grande. .o es recomenda%le emprender el desarrollo del data warehouse de la empresa como un pro#ecto cualquiera. 3s %ien, se recomienda que los requerimientos de una serie de fases se desarrollen e implementen en modelos consecutivos que permitan un proceso de implementacin ms gradual e iterativo. .o e6iste ninguna organi"acin que ha#a triunfado en el desarrollo del data warehouse de la empresa, en un slo paso. 3uchas, sin em%argo, lo han logrado luego de un desarrollo paso a paso. ?os pasos previos evolucionan con)untamente con la materia que est siendo agregada. ?os datos en el data warehouse no son voltiles # es un repositorio de datos de slo lectura 2en general4. Sin em%argo, pueden a7adirse nuevos elementos so%re una %ase regular para que el contenido siga la evolucin de los datos en la %ase de datos fuente, tanto en los contenidos como en el tiempo. &no de los desaf$os de mantener un data warehouse, es idear mtodos para identificar datos nuevos o modificados en las %ases de datos operacionales. *lgunas maneras para identificar estos datos inclu#en insertar fechaMtiempo en los registros de %ase de datos # entonces crear copias de registros actuali"ados # copiar informacin de los registros de transaccin #Mo %ase de datos diarias. -stos elementos de datos nuevos #Mo modificados son e6tra$dos, integrados, transformados # agregados al data warehouse en pasos peridicos programados. ,omo se a7aden las nuevas ocurrencias de datos, los datos antiguos son eliminados. >or e)emplo, si los detalles de un su)eto particular se mantienen por I a7os, como se agreg la :ltima semana, la semana anterior es eliminada.

1.& Tranformacin de $atos ' Metadata 1.@ TRANS(OR'ACION DE DATOS A 'ETADATA 1.@.1 Trans#or$aci%n de Datos

&no de los desaf$os de cualquier implementacin de data warehouse, es el pro%lema de transformar los datos. ?a transformacin se encarga de las inconsistencias en los formatos de datos # la codificacin, que pueden e6istir dentro de una %ase de datos :nica # que casi siempre e6isten cuando m:ltiples %ases de datos contri%u#en al data warehouse. -n la igura .@ 9 se ilustra una forma de inconsistencia, en la cual el gnero se codifica de manera diferente en tres %ases de datos diferentes. ?os procesos de transformacin de datos se desarrollan para direccionar estas inconsistencias.

?a transformacin de datos tam%in se encarga de las inconsistencias en el contenido de datos. &na ve" que se toma la decisin so%re que reglas de transformacin sern esta%lecidas, de%en crearse e incluirse las definiciones en las rutinas de transformacin. Se requiere una planificacin cuidadosa # detallada para transformar datos inconsistentes en con)untos de datos concilia%les # consistentes para cargarlos en el data warehouse 1.@.& 'etadata !tro aspecto de la arquitectura de data warehouse es crear soporte a la metadata. 3etadata es la informacin so%re los datos que se alimenta, se transforma # e6iste en el data warehouse. 3etadata es un concepto genrico, pero cada implementacin de la metadata usa tcnicas # mtodos espec$ficos. -stos mtodos # tcnicas son dependientes de los requerimientos de cada organi"acin, de las capacidades e6istentes # de los requerimientos de interfase de usuario. Gasta ahora, no ha# normas para la metadata, por lo que la metadata de%e definirse desde el punto de vista del software data warehousing, seleccionado para una implementacin espec$fica. 8$picamente, la metadata inclu#e los siguientes $tems0

o o o o o o

?as estructuras de datos que dan una visin de los datos al administrador de datos. ?as definiciones del sistema de registro desde el cual se constru#e el data warehouse. ?as especificaciones de transformaciones de datos que ocurren tal como la fuente de datos se replica al data warehouse. -l modelo de datos del data warehouse 2es decir, los elementos de datos # sus relaciones4. &n registro de cuando los nuevos elementos de datos se agregan al data warehouse # cuando los elementos de datos antiguos se eliminan o se resumen. ?os niveles de sumari"acin, el mtodo de sumari"acin # las ta%las de registros de su data warehouse.

*lgunas implementaciones de la metadata tam%in inclu#en definiciones de la2s4 vista2s4 presentada2s4 a los usuarios del data warehouse. 8$picamente, se definen vistas m:ltiples para favorecer las preferencias variadas de diversos grupos de usuarios. -n otras implementaciones, estas descripciones se almacenan en un ,atlogo de (nformacin. ?os esquemas # su%esquemas para %ases de datos operacionales, forman una fuente ptima de entrada cuando se crea la metadata. Gacer uso de la documentacin e6istente, especialmente cuando est disponi%le en forma electrnica, puede acelerar el proceso de definicin de la metadata del am%iente data warehousing. ?a metadata sirve, en un sentido, como el cora"n del am%iente data warehousing. ,rear definiciones de metadata completa # efectiva puede ser un proceso que consuma tiempo, pero lo me)or de las definiciones # si usted usa herramientas de gestin de software integrado, son los esfuer"os que darn como resultado el mantenimiento del data warehouse. 1.B (LUCO DE DATOS -6iste un flu)o de datos normal # predeci%le dentro del data warehouse. ?a igura .@ A0 muestra ese flu)o. ?os datos ingresan al data warehouse desde el am%iente operacional. 2Ga# pocas e6cepciones a esta regla4. *l ingresar al data warehouse, la informacin va al nivel de detalle actual, tal como se muestra. Se queda all$ # se usa hasta que ocurra uno de los tres eventos siguientes0

o o o

Sea eliminado Sea resumido Sea archivado

,on el proceso de desactuali"acin en un data warehouse se mueve el detalle de la data actual a data antigua, %asado en el tiempo de los datos. -l proceso de esquemati"acin usa el detalle de los datos para calcular los datos en forma ligera # completamente resumidos. Ga# pocas e6cepciones al flu)o mostrado. Sin em%argo, en general, para la ma#or$a de datos encontrados en un data warehouse, el flu)o de la informacin es como se ha e6plicado.

1.D 'EDIOS DE AL'ACENA'IENTO PARA IN(OR'ACION ANTIGUA

-l s$m%olo mostrado en la igura .@ AA para medios de almacenamiento de informacin antigua es la cinta magntica, que puede usarse para almacenar este tipo de informacin. De hecho ha# una amplia variedad de medios de almacenamiento que de%en considerarse para almacenar datos ms antiguos. -n la figura se muestra algunos de esos medios. Dependiendo del volumen de informacin, la frecuencia de acceso, el costo de los medios # el tipo de acceso, es pro%a%le que otros medios de almacenamiento sirvan a las necesidades del nivel de detalle ms antiguo en el data warehouse.

1.E USOS DEL DATA WAREHOUSE ?os datos operacionales # los datos del data warehouse son accesados por usuarios que usan los datos de maneras diferentes. Uso de Base de Datos Operaciona es 3uchos usuarios concurrentes ,onsultas predefinidas # actuali"a%les ,antidades peque7as de datos detallados Uso de Data Ware!o"se >ocos usuarios concurrentes ,onsultas comple)as, frecuentemente no anticipadas. ,antidades grandes de datos detallados

;equerimientos de respuesta inmediata ;equerimientos de respuesta no cr$ticos 3aneras diferentes de uso de datos ?os usuarios de un data warehouse necesitan accesar a los datos comple)os, frecuentemente desde fuentes m:ltiples # de formas no predeci%les. ?os usuarios que accesan a los datos operacionales, com:nmente efect:an tareas predefinidas que, generalmente requieren acceso a una sola %ase de datos de una aplicacin. >or el contrario, los usuarios que accesan al data warehouse, efect:an tareas que requieren acceso a un con)unto de datos desde fuentes m:ltiples # frecuentemente no son predeci%les. ?o :nico que se conoce 2si es modelada correctamente4 es el con)unto inicial de datos que se han esta%lecido en el depsito. >or e)emplo, un especialista en el cuidado de la salud podr$a necesitar accesar a los datos actuales e histricos para anali"ar las tendencias de costos, usando un con)unto de consultas predefinidas. >or el contrario, un representante de ventas podr$a necesitar accesar a los datos de cliente # producto para evaluar la eficacia de una campa7a de mar9eting, creando consultas %ase o ad/hoc para encontrar nuevamente necesidades definidas.

S% o pocos "s"arios accesan a os datos conc"rrente$ente

-n contraste a la produccin de sistemas que pueden mane)ar cientos o miles de usuarios concurrentes, al data warehouse accesa un limitado con)unto de usuarios en cualquier tiempo determinado.

Los "s"arios *eneran "n procesa$iento no predeci8 e co$p e<o

?os usuarios del data warehouse generan consultas comple)as. * veces la respuesta a una consulta conduce a la formulacin de otras preguntas ms detalladas, en un proceso llamado drilling down. -l data warehouse puede incluir niveles de res:menes m:ltiples, derivado de un con)unto principal, :nico, de datos detallados, para soportar este tipo de uso.

-n efecto, los usuarios frecuentemente comien"an %uscando en los datos resumidos # como identifican reas de inters, comien"an a accesar al con)unto de datos detallado. ?os con)untos de datos resumidos representan el =Ju= de una situacin # los con)untos de datos detallados permiten a los usuarios construir un cuadro so%re =,mo= se ha derivado esa situacin.

Las cons" tas de os "s"arios accesan a cantidades *randes de datos

De%ido a la necesidad de investigar tendencias # evaluar las relaciones entre muchas clases de datos, las consultas al data warehouse permiten accesar a vol:menes mu# grandes tanto de data detallada como resumida. De%ido a los requerimientos de datos histricos, los data warehouses evolucionan para llegar a un tama7o ms grande que sus or$genes operacionales 2de A0 a A00 veces ms grande4.

Las cons" tas de os "s"arios no tienen tie$pos de resp"esta cr=ticos

?as transacciones operacionales necesitan una respuesta inmediata porque un cliente puede estar esperando una respuesta. -n el data warehouse, por el contrario, tiene un requerimiento de respuesta no/cr$tico porque el resultado frecuentemente se usa en un proceso de anlisis # toma de decisiones. *unque los tiempos de respuesta no son cr$ticos, los usuarios esperan una respuesta dentro del mismo d$a en que es hecha la consulta. >or lo general, los diferentes niveles de datos dentro del data warehouse reci%en diferentes usos. * ms alto nivel de esquemati"acin, se tiene ma#or uso de los datos. -n la igura .@ AB se muestra que ha# ma#or uso de los datos completamente resumidos, a diferencia de la informacin antigua que apenas es usada. Ga# una %uena ra"n para mover una organi"acin al paradigma sugerido en la figura, la utili"acin del recurso. ?a data ms resumida, permite capturar los datos en forma ms rpida # eficiente. Si en una tarea se encuentra que se hace mucho procesamiento a niveles de detalle del data warehouse, entonces se consumir muchos recursos de mquina. -s me)or hacer el procesamiento a niveles ms altos de esquemati"acin como sea posi%le. >ara muchas tareas, el analista de sistemas de soporte de decisiones usa la informacin a nivel de detalle en un pre data warehouse. ?a seguridad de la informacin de detalle se consigue de muchas maneras, aun cuando estn disponi%les otros niveles de esquemati"acin. &na de las actividades del dise7ador de datos es el de desconectar al usuario del sistema de soporte de decisiones del uso constante de datos a nivel de detalle ms %a)o.

-l dise7ador de datos tiene dos predisposiciones0 o (nstalar un sistema charge%ac9, donde el usuario final pague por los recursos consumidos o Se7alar el me)or tiempo de respuesta que puede o%tenerse cuando se tra%a)a con la data a un nivel alto de esquemati"acin, a diferencia de un po%re tiempo de respuesta que resulta de tra%a)ar con los datos a un nivel %a)o de detalle. >ara ilustrar cmo un data warehouse puede a#udar a una organi"acin a me)orar sus operaciones, se muestra un e)emplo de lo que es el desarrollo de actividades sin tener un data warehouse. E<e$p oF Preparaci%n de "n reporte co$p e<o ,onsidere un pro%lema %astante t$pico en una compa7$a de fa%ricacin grande en el que se pide una informacin 2un reporte4 que no est disponi%le. -l informe inclu#e las finan"as actuales, el inventario # la condicin de personal, acompa7ado de comparaciones del mes actual con el anterior # el mismo mes del a7o anterior, con una comparacin adicional de los E a7os precedentes. Se de%e e6plicar cada desviacin de la tendencia que cae fuera de un rango predefinido.

Sin un data warehouse, el informe es preparado de la manera siguiente0 ?a informacin financiera actual se o%tiene desde una %ase de datos mediante un programa de e6traccin de datos, el inventario actual de otro programa de e6traccin de otra %ase de datos, la condicin actual de personal de un tercer programa de e6traccin # la informacin histrica desde un %ac9up de cinta magntica o ,D/;!3. ?o ms interesante es que se ha pedido otro informe que contin:e al primer informe 2de%ido a que las preguntas se originaron a partir del anterior4. -l hecho es, que ninguno de los tra%a)os reali"ados hasta aqu$ 2por e)emplo, diversos programas de e6traccin4 se pueden usar para los pr6imos o para cualquier reporte su%siguiente. (magine el tiempo # el esfuer"o que se ha desperdiciado por un enfoque anticuado. 2Der igura .@ AE4. ?as inconsistencias de%en identificarse en cada con)unto de datos e6tra$dos # resolverse, por lo general, manualmente. ,uando se completa todo este procesamiento, el reporte puede ser formateado, impreso, revisado # transmitido. .uevamente, el punto importante aqu$ es que todo el tra%a)o desempe7ado para hacer este informe no afecta a otros reportes que pueden solicitarse es decir, todos ellos son independientes # caros, desde el punto de vista de recursos # productividad.

*l crear un data warehouse # com%inar todos los datos requeridos, se o%tienen los siguientes %eneficios0 o ?as inconsistencias de los datos se resuelven automticamente cuando los elementos de datos se cargan en el data warehouse, no manualmente, cada ve" que se prepara un reporte. o ?os errores que ocurrieron durante el proceso comple)o de la preparacin del informe, se minimi"an porque el proceso es ahora mucho ms simple. o ?os elementos de datos son fcilmente accesi%les para otros usos, no slo para un reporte particular. o Se crea una sola fuente. 1.1G CONSIDERACIONES ADICIONALES

Ga# algunas consideraciones adicionales que de%en tenerse en cuenta al construir # administrar el data warehouse.

?a primera consideracin es respecto al (ndice. ?a informacin de los niveles de esquemati"acin ms altos pueden ser li%remente inde6ados, mientras que las de los niveles ms %a)os de detalle, por ser tan voluminosa, pueden ser inde6ados moderadamente.

>or lo mismo, los datos en los niveles ms altos de detalle pueden ser reestructurados fcilmente, mientras que el volumen de datos en los niveles ms inferiores es tan grande, que los datos no pueden ser fcilmente reestructurados. >or consiguiente, el modelo de datos # el dise7o clsico fundamentan que el data warehouse se aplique casi e6clusivamente al nivel actual de detalle. -n otras pala%ras, las actividades de modelamiento de datos no se aplican a los niveles de esquemati"acin, en casi todos los casos.

!tra consideracin estructural es la #articin de "a informacin en el data warehouse. -l nivel de detalle actual es casi siempre particionado.

?a particin puede hacerse de dos maneras0 al nivel de D53S # al nivel de la aplicacin. -n la particin D53S, se conoce las particiones # se administra por consiguiente. -n el caso de la particin de las aplicaciones, slo los programadores de las mismas conocen las particiones # la responsa%ilidad de su administracin es asignada a ellos. *l interior de las particiones D53S, mucho de los tra%a)os de infraestructura se hacen automticamente. >ero e6iste un elevado grado de rigide" asociada con la gestin automtica de las particiones. -n el caso de las particiones de las aplicaciones del data warehouse, la ma#or parte del tra%a)o recae so%re el programador, pero el resultado final es que la gestin de datos es ms fle6i%le. 1.11 ECE'PLO DE UN DATA WAREHOUSE -n la igura .@ AF se muestra un e)emplo hipottico de un data warehouse estructurado para un centro de produccin industrial.

Se muestra slo el detalle actual, no as$ los niveles de esquemati"acin ni los archivos de detalle ms antiguos. *dems, se o%serva que ha# ta%las del mismo tipo divididas a travs del tiempo. >or e)emplo, para el histrico de la fa%ricacin de las pie"as, ha# muchas ta%las separadas f$sicamente, representando cada una un trimestre diferente. ?a estructura de los datos es consistente con la ta%la de la ela%oracin de las pie"as, aunque f$sicamente ha# muchas ta%las que lgicamente inclu#en el histrico. >ara los diferentes tipos de ta%las ha# diferentes unidades de tiempo que f$sicamente dividen las unidades de informacin. -l histrico de fa%ricacin est dividido por trimestres, el histrico de la orden de pie"as est dividido por a7os # el histrico de cliente es un archivo :nico, no dividido por el tiempo. *s$ tam%in, las diferentes ta%las son vinculadas por medio de un identificador com:n, pie"as u rdenes de pie"as 2la representacin de la interrelacin en el am%iente de depsito toma una forma mu# diferente al de otros am%ientes, tal como el am%iente operacional4. 1.1& EHCEPCIONES EN EL DATA WAREHOUSE 3ientras que los componentes del data warehouse tra%a)an de acuerdo al modelo descrito para casi todos los datos, ha# pocas e6cepciones :tiles que necesitan ser discutidas.

&na de ellas es la data resumida #!b"ica, que es la data que ha sido calculada fuera del data warehouse pero es usada a travs de la corporacin. ?a data resumida p:%lica se almacena # administra en el data warehouse, aunque su clculo se ha#a hecho fuera de l.

&n e)emplo clsico de data resumida p:%lica es el archivamiento trimestral hecho por cada compa7$a p:%lica. ?os contadores tra%a)an para producir cantidades como rentas trimestrales, gastos trimestrales, ganancias trimestrales # otros. -l tra%a)o hecho por los contadores est fuera del data warehouse. Sin em%argo, esas cantidades referenciales producidas por ellos se usan ampliamente dentro de la corporacin para mar9eting, ventas, etc. &na ve" que se ha#a hecho el archivo, los datos se almacenan en el data warehouse.

o o

!tra e6cepcin no considerada en este documento es la data e)terna. !tro e6cepcional tipo de datos a veces encontrados en un data warehouse es e" deta""e de "os datos #ermanentes, que resulta de la necesidad de una corporacin para almacenar la data a un nivel detallado permanentemente por ra"ones ticas o legales.

Si una corporacin e6pone a sus tra%a)adores a sustancias peligrosas ha# una necesidad de detalle de datos permanente. Si una corporacin produce un producto que involucra la seguridad p:%lica, tal como la construccin de las partes de aviones, ha# una necesidad de datos permanentes. Si una corporacin se compromete con contratos peligrosos, ha# una necesidad de detalle de datos permanentes. ?a organi"acin simplemente no puede de)ar los detalles porque en futuros a7os, en el caso de una demanda, una notificacin, un edificio en disputa, etc., se incrementar$a la e6posicin de la compa7$a. >or lo tanto ha# un :nico tipo de datos en el data warehouse conocido como detalle de datos permanentes. -l detalle de datos permanentes comparte muchas de las mismas consideraciones como otro data warehouse, e6cepto que0

o o

-l medio donde se almacena la data de%e ser tan seguro como sea posi%le. ?os datos de%en permitir ser restaurados.

?os datos necesitan un tratamiento especial en su inde6acin, #a que de otra manera los datos pueden no ser accesi%les aunque se ha#a almacenado con mucha seguridad. *. PRO+ECTO $E E,A-ORACION $E .N $ATA /ARE0O.SE &.1 (ASEF ORGANIIACION ?a planificacin es el proceso ms importante que determina la clase de tipo de estrategias data warehousing que una organi"acin iniciar. &.1.1 (ACTORES EN LA PLANI(ICACION DE UN DATA WAREHOUSE .o e6iste una frmula de garant$a real para el 6ito de la construccin de un data warehouse, pero ha# muchos puntos que contri%u#en a ese o%)etivo. * continuacin, se indican algunos puntos claves que de%en considerarse en la planificacin de un data warehouse0 1. Esta8 ecer "na asociaci%n de "s"arios. *esti%n 5 *r"pos -s esencial involucrar tanto a los usuarios como a la gestin para asegurar que el data warehouse contenga informacin que satisfaga los requerimientos de la empresa. ?a gestin puede a#udar a priori"ar la fase de la implementacin del data warehouse, as$ como tam%in la seleccin de herramientas del usuario. ?os usuarios # la gestin )ustifican los costos del data warehouse so%re cmo ser =su am%iente= # est %asado primero en lo esperado # segundo, en el valor comercial real. &. Se eccionar "na ap icaci%n pi oto con "na a ta pro8a8i idad de )9ito &na aplicacin piloto de alcance limitado, con un reem%olso medi%le para los usuarios # la gestin, esta%lecer el data warehouse como una tecnolog$a clave para la empresa. -stos mismos criterios 2alcance limitado, reem%olso medi%le # %eneficios claros para la empresa4 se aplican a cada fase de la implementacin de un data warehouse.

/. Constr"ir prototipos r+pida 5 #rec"ente$ente ?a :nica manera para asegurar que el data warehouse re:na las necesidades de los usuarios, es hacer el prototipo a lo largo del proceso de implementacin # a:n ms all, as$ como agregar los nuevos datos #Mo los modelos en forma permanente. -l tra%a)o continuo con los usuarios # la gestin es, nuevamente, la clave. 2. I$p e$entaci%n incre$enta ?a implementacin incremental reduce riesgos # asegura que el tama7o del pro#ecto permane"ca mane)a%le en cada fase. 3. Reportar acti-a$ente 5 p"8 icar os casos e9itosos ?a retroalimentacin de los usuarios ofrece una e6celente oportunidad para pu%licar los hechos e6itosos dentro de una organi"acin. ?a pu%licidad interna so%re cmo el data warehouse ha a#udado a los usuarios a operar ms efectivamente puede apo#ar la construccin del data warehouse a lo largo de una empresa. ?a retroalimentacin del usuario tam%in a#uda a comprender cmo evoluciona la implementacin del data warehouse a travs del tiempo para reunir requerimientos de usuario nuevamente identificados. &.1.& ESTRATEGIAS PARA EL DESARROLLO DE UN DATA WAREHOUSE *ntes de desarrollar un data warehouse, es cr$tico el desarrollo de una estrategia equili%rada que sea apropiada para sus necesidades # sus usuarios. ?as preguntas que de%en tenerse en cuenta son0 / PJuin es el auditorioQ / P,ul es el alcanceQ / PJu tipo de data warehouse de%er$a construirseQ -6iste un n:mero de estrategias mediante las cuales las organi"aciones pueden conseguir sus data warehouses. 1ra.F -sta%lecer un am%iente =data warehouse virtual=, el cual puede ser creado por 0 A. B. E. F. (nstalacin de un con)unto de facilidades para acceso a datos, directorio de datos # gestin de proceso. -ntrenamiento de usuarios finales. ,ontrol de cmo se usan realmente las instalaciones del data warehouse. 5asados en el uso actual, crear un data warehouse f$sico para soportar los pedidos de alta frecuencia.

&da.F ,onstruir una copia de los datos operacionales desde un sistema operacional :nico # posi%ilitar al data warehouse de una serie de herramientas de acceso a la informacin. -sta estrategia tiene la venta)a de ser simple # rpida. Desafortunadamente, si los datos e6istentes son de mala calidad #Mo el acceso a los datos no ha sido previamente evaluado, entonces se puede crear una serie de pro%lemas. /ra.F inalmente, la estrategia data warehousing ptima es seleccionar el n:mero de usuarios %asados en el valor de la empresa # hacer un anlisis de sus puntos, preguntas # necesidades de acceso a datos. De acuerdo a estas necesidades, se constru#en los prototipos data warehousing # se prue%an para que los usuarios finales puedan e6perimentar # modificar sus requerimientos. &na ve" se tenga un consenso general so%re las necesidades, entonces se consiguen los datos provenientes de los sistemas operacionales e6istentes a travs de la empresa #Mo desde fuentes e6ternas de datos # se cargan al data warehouse.

Si se requieren herramientas de acceso a la informacin, se puede tam%in permitir a los usuarios finales tener acceso a los datos requeridos usando sus herramientas favoritas propias, o facilitar la creacin de sistemas de acceso a la informacin multidimensional de alta performance, usando el n:cleo del data warehouse como %ase. -n conclusin, no se tiene un enfoque :nico para construir un data warehouse que se adapte a las necesidades de las empresas, de%ido a que las necesidades de cada una de ellas son diferentes, al igual que su conte6to. *dems, como la tecnolog$a data warehousing va evolucionando, se aprende cada ve" ms # ms so%re el desarrollo de data warehouses, que resulta en que el :nico enfoque prctico para al almacenamiento de datos es la evolucin de uno mismo. &.1./ ESTRATEGIAS PARA EL DISEJO DE UN DATA WAREHOUSE -l dise7o de los data warehouses es mu# diferente al dise7o de los sistemas operacionales tradicionales. Se pueden considerar los siguientes puntos0 1ra. F ?os usuarios de los data warehouses usualmente no conocen mucho so%re sus requerimientos # necesidades como los usuarios operacionales. &da.F -l dise7o de un data warehouse, con frecuencia involucra lo que se piensa en trminos ms amplios # con conceptos del negocio ms dif$ciles de definir que en el dise7o de un sistema operacional. *l respecto, un data warehouse est %astante cerca a ;eingenier$a de los >rocesos del .egocio 25usiness >rocess ;eengineering4. /ra.F inalmente, la estrategia de dise7o ideal para un data warehousing es generalmente de afuera hacia adentro 2outside/in4 a diferencia de arri%a hacia a%a)o 2top/down4. * pesar que el dise7o del data warehouse es diferente al usado en los dise7os tradicionales, no es menos importante. -l hecho que los usuarios finales tengan dificultad en definir lo que ellos necesitan, no lo hace menos necesario. -n la prctica, los dise7adores de data warehouses tienen que usar muchos =trucos= para a#udar a sus usuarios a =visuali"ar= sus requerimientos. >or ello, son esenciales los prototipos de &.1.2 ESTRATEGIAS PARA LA GESTION DE UN DATA WAREHOUSE ?os data warehouses requieren una comerciali"acin # gestin mu# cuidadosa. De%e considerarse lo siguiente0 1ra.F &n data warehouse es una inversin %uena slo si los usuarios finales realmente pueden conseguir informacin vital ms rpida # ms %arata de lo que o%tienen con la tecnolog$a actual. ,omo consecuencia, la gestin tiene que pensarse seriamente so%re cmo quieren sus depsitos para su efica" desempe7o # cmo conseguirn llegar a los usuarios finales. &da.F ?a administracin de%e reconocer que el mantenimiento de la estructura del data warehouse es tan cr$tico como el mantenimiento de cualquier otra aplicacin de misin/cr$tica. De hecho, la e6periencia ha demostrado que los data warehouses llegarn a ser rpidamente uno de los sistemas ms usados en cualquier organi"acin. /ra.F ?a gestin de%e comprender tam%in que si se em%arcan so%re un programa data warehousing, se crearn nuevas demandas so%re sus sistemas operacionales, que son0

o o o

Demandas para me)orar datos Demandas para una data consistente Demandas para diferentes tipos de datos, etc.

&.&. (aseF Desarro o &.&.1 KPOR4UE CONSTRUIR BLO4UES DE DATA WAREHOUSEL >ara ampliar un negocio, se necesita que la informacin sea comprensi%le. >ara muchas compa7$as, sto significa un gran data warehouse que muestre, )unto a los datos no filtrados # dispersos, nuevas formas creativas de presentacin.

?as herramientas para capturar # e6plorar los datos al detalle evolucionan, as$ como nuestra capacidad para encontrar las formas de e6plotar los datos recolectados. -n los :ltimos A0 a7os se han com%inado dos factores para a#udar a la difusin de los data warehouses. -llos son0 11 Se ha reconocido los %eneficios del procesamiento anal$tico en l$nea 2!n ?ine *nal#tical >rocessing / !?*>4, ms all de las reas tradicionales de mar9eting # finan"as. ?as organi"aciones sa%en que los conocimientos inmersos en las masas de datos que rutinariamente recogen so%re sus clientes, productos, operaciones # actividades comerciales, contri%u#en a reducir los costos de operacin # aumentar las rentas, por no mencionar que es ms fcil la toma de decisiones estratgicas. &1 -l crecimiento de la computacin clienteMservidor, ha creado servidores de hardware # software ms poderosos # sofisticados que nunca. ?os servidores de ho# compiten con las mainframes de a#er # ofrecen arquitecturas de memoria tecnolgicamente superiores, procesadores de alta velocidad # capacidades de almacenamiento masivas. *l mismo tiempo, los Sistemas de 1estin de 5ase de Datos 2Data 5ase 3anagement S#stems / D53S2s44 modernos, proporcionan ma#or soporte para las estructuras de datos comple)as. De esta renovacin de hardware # software surgen los data warehouses multitera%#te que ahora se ve en am%ientes de clienteMservidor. &.&.& CONSIDERACIONES PRE0IAS AL DESARROLLO DE UN DATA WAREHOUSE Ga# muchas maneras para desarrollar data warehouses como tantas organi"aciones e6isten. Sin em%argo, ha# un n:mero de dimensiones diferentes que necesitan ser consideradas0 o *lcance de un data warehouse o ;edundancia de datos o 8ipo de usuario final ?a igura .@ AI muestra un esquema %idimensional para anali"ar las opciones %sicas. ?a dimensin hori"ontal indica el alcance del depsito # la vertical muestra la cantidad de datos redundantes que de%en almacenarse # mantenerse.

&.&.&.1 ALCANCE DEL DATA WAREHOUSE -l alcance de un data warehouse puede ser tan amplio como toda la informacin estratgica de la empresa desde su inicio, o puede ser tan limitado como un data warehouse personal para un solo gerente durante un a7o. -n la prctica, en la amplitud del alcance, el ma#or valor del data warehouse es para la empresa # lo ms caro # consumidor de tiempo es crear # mantenerlo. ,omo consecuencia de ello, la ma#or$a de las organi"aciones

comien"an con data warehouses funcionales, departamentales o divisionales # luego los e6panden como usuarios que proveen retroalimentacin. &.&.&.& REDUNDANCIA DE DATOS Ga# tres niveles esenciales de redundancia de datos que las empresas de%er$an considerar en sus opciones de data warehouse0 o Data warehouses =virtual= o =>oint to >oint= o Data warehouses =centrales= o Data warehouses =distri%uidos= .o se puede pensar en un :nico enfoque. ,ada opcin adapta un con)unto espec$fico de requerimientos # una %uena estrategia de almacenamiento de datos, lo constitu#e la inclusin de las tres opciones.

1. Data Ware!o"ses M0irt"a M o MPoint to PointM


&na estrategia de data warehouses virtual, significa que los usuarios finales pueden accesar a %ases de datos operacionales directamente, usando cualquier herramienta que posi%ilite =la red de acceso de datos=. -ste enfoque provee fle6i%ilidad as$ como tam%in la cantidad m$nima de datos redundantes que de%en cargarse # mantenerse. *dems, se pueden colocar las cargas de consulta no planificadas ms grandes, so%re sistemas operacionales. ,omo se ver, el almacenamiento virtual es, frecuentemente, una estrategia inicial, en organi"aciones donde ha# una amplia 2pero en su ma#or parte indefinida4 necesidad de conseguir la data operacional, desde una clase relativamente grande de usuarios finales # donde la frecuencia pro%a%le de pedidos es %a)a. ?os depsitos virtuales de datos proveen un punto de partida para que las organi"aciones determinen qu usuarios finales estn %uscando realmente. &. Data Ware!o"ses MCentra esM -l concepto de data warehouses centrales es el concepto inicial que se tiene del data warehouse. -s una :nica %ase de datos f$sica, que contiene todos los datos para un rea funcional espec$fica, departamento, divisin o empresa. ?os data warehouses centrales se seleccionan por lo general donde ha# una necesidad com:n de los datos informticos # un n:mero grande de usuarios finales #a conectados a una red o computadora central. >ueden contener datos para cualquier per$odo espec$fico de tiempo. ,om:nmente, contienen datos de sistemas operacionales m:ltiples. ?os data warehouses centrales son reales. ?os datos almacenados en el data warehouse son accesi%les desde un lugar # de%en cargarse # mantenerse so%re una %ase regular. .ormalmente se constru#en alrededor de ;D53s avan"ados o, en alguna forma, de servidor de %ase de datos informtico multidimensional. /. Data Ware!o"ses Distri8"idos ?os data warehouses distri%uidos son aquellos en los cuales ciertos componentes del depsito se distri%u#en a travs de un n:mero de %ases de datos f$sicas diferentes. ,ada ve" ms, las organi"aciones grandes estn tomando decisiones a niveles ms inferiores de la organi"acin # a la ve", llevando los datos que se necesitan para la toma de decisiones a la red de rea local 2?ocal *rea .etwor9 / ?*.4 o computadora local que sirve al que toma decisiones. ?os data warehouses distri%uidos com:nmente involucran la ma#or$a de los datos redundantes # como consecuencia de ello, se tienen procesos de actuali"acin # carga ms comple)os &.&.&./ TIPO DE USUARIO (INAL De la misma forma que ha# una gran cantidad de maneras para organi"ar un data warehouse, es importante notar que tam%in ha# una gama cada ve" ms amplia de usuarios finales. -n general, se puede considerar tres grandes categor$as0

o o o

-)ecutivos # gerentes =>ower users= o =5u"o de (nformacin= 2analistas financieros # de negocios, ingenieros, etc.4 &suarios de soporte 2de oficina, administrativos, etc.4

,ada una de estas categor$as diferentes de usuario tienen su propio con)unto de requerimientos para los datos, acceso, fle6i%ilidad # facilidad de uso. &.&./ ELE'ENTOS CLA0ES PARA EL DESARROLLO DE UN DATA WAREHOUSE ?os data warehouses e6itosos comien"an cuando se escogen e integran satisfactoriamente tres elementos claves. &n data warehouse est integrado por un servidor de hardware # los D53S que conforman el depsito. Del lado del hardware, se de%e com%inar la configuracin de plataformas de los servidores, mientras se decide cmo aprovechar los saltos casi constantes de la potencia del procesador. Del lado del software, la comple)idad # el alto costo de los D53Ses fuer"an a tomar decisiones drsticas # %alances comparativos inevita%les, con respecto a la integracin, requerimientos de soporte, desempe7o, eficiencia # confia%ilidad. Si se escoge incorrectamente, el data warehouse se convierte en una gran empresa con pro%lemas dif$ciles de tra%a)ar en su entorno, costoso para arreglar # dif$cil de )ustificar. >ara conseguir que la implementacin del depsito tenga un inicio e6itoso, se necesita enfocar hacia tres %loques claves de construccin0

o o o

*rquitectura total del depsito *rquitecturas del servidor Sistemas de 1estin de 5ase de Datos

* continuacin se presentan algunas recomendaciones para tomar las correctas elecciones para su empresa.

&.&./.1 DISEJO DE LA AR4UITECTURA a; Ar6"itect"ra de Dep%sito -l desarrollo del data warehouse comien"a con la estructura lgica # f$sica de la %ase de datos del depsito ms los servicios requeridos para operar # mantenerlo. -sta eleccin conduce a la seleccin de otros dos $tems fundamentales0 el servidor de hardware # el D53S. ?a plataforma f$sica puede centrali"arse en una sola u%icacin o distri%uirse regional, nacional o internacionalmente. * continuacin se dan las siguientes alternativas de arquitectura0 11 &n plan para almacenar los datos de su compa7$a, que podr$a o%tenerse desde fuentes m:ltiples internas # e6ternas, es consolidar la %ase de datos en un data warehouse integrado. -l enfoque consolidado proporciona eficiencia tanto en la potencia de procesamiento como en los costos de soporte. 2Der igura .@ AK4.

&1 ?a arquitectura glo%al distri%u#e informacin por funcin, con datos financieros so%re un servidor en un sitio, los datos de comerciali"acin en otro # los datos de fa%ricacin en un tercer lugar. 2Der igura .@ AO4

/1 &na arquitectura por niveles almacena datos altamente resumidos so%re una estacin de tra%a)o del usuario, con res:menes ms detallados en un segundo servidor # la informacin ms detallada en un tercero. ?a estacin de tra%a)o del primer nivel mane)a la ma#or$a de los pedidos para los datos, con pocos pedidos que pasan sucesivamente a los niveles B # E para la resolucin. ?as computadoras en el primer nivel pueden optimi"arse para usuarios de carga pesada # volumen %a)o de datos, mientras que los servidores de los otros niveles son ms adecuados para procesar los vol:menes pesados de datos, pero cargas ms livianas de usuario. 2Der figura .@ AL4.

8; Ar6"itect"ra de ser-idor *l decidir so%re una estructura de depsito distri%uida o centrali"ada, tam%in se necesita considerar los servidores que retendrn # entregarn los datos. -l tama7o de su implementacin 2# las necesidades de su empresa para escala%ilidad, disponi%ilidad # gestin de sistemas4 influir en la eleccin de la arquitectura del servidor. 11 Ser-idores de "n so o procesador ?os servidores de un slo procesador son los ms fciles de administrar, pero ofrecen limitada potencia de procesamiento # escala%ilidad. *dems, un servidor slo presenta un :nico punto de falla, limitando la disponi%ilidad garanti"ada del depsito. Se puede ampliar un solo servidor de redes mediante arquitecturas distri%uidas que hacen uso de su%productos, tales como *m%ientes de ,omputacin Distri%uida 2Distri%uted ,omputing -nvironment / D,-4 o *rquitectura 5ro9er de !%)eto ,om:n 2,ommon !%)ects ;equest 5ro9er *rchitecture / ,!;5*4, para distri%uir el trfico a travs de servidores m:ltiples. -stas arquitecturas aumentan tam%in la disponi%ilidad, de%ido a que las operaciones pueden cam%iarse al servidor de %ac9up si un servidor falla, pero la gestin de sistemas es ms comple)a. &1 '" tiprocesa$iento si$)trico ?as mquinas de multiprocesamiento simtrico 2S#mmetric 3ulti>rocessing / S3>4 aumentan mediante la adicin de procesadores que comparten la memoria interna de los servidores # los dispositivos de almacenamiento de disco.

Se puede adquirir la ma#or$a de S3> en configuraciones m$nimas 2es decir, con dos procesadores4 # levantar cuando es necesario, )ustificando el crecimiento con las necesidades de procesamiento. ?a escala%ilidad de una mquina S3> alcan"a su l$mite en el n:mero m6imo de procesadores soportados por los mecanismos de cone6in 2es decir, el %ac9plane # %us compartido4. /1 Procesa$iento en para e o $asi-o &na mquina de procesamiento en paralelo masivo 23assivel# >arallel >rocessing / 3>>4, conecta un con)unto de procesadores por medio de un enlace de %anda ancha # de alta velocidad. ,ada nodo es un servidor, completo con su propio procesador 2posi%lemente S3>4 # memoria interna. >ara optimi"ar una arquitectura 3>>, las aplicaciones de%en ser =paraleli"adas= es decir, dise7adas para operar por separado, en partes paralelas. -sta arquitectura es ideal para la %:squeda de grandes %ases de datos. Sin em%argo, el D53S que se selecciona de%e ser uno que ofre"ca una versin paralela. C a:n entonces, se requiere un dise7o # afinamiento esenciales para o%tener una ptima distri%ucin de los datos # prevenir =hot spots= o =data s9ew= 2donde una cantidad desproporcionada del procesamiento es cam%iada a un nodo de procesamiento, de%ido a la particin de los datos %a)o su control4. 21 Acceso de $e$oria no "ni#or$e ?a dificultad de mover aplicaciones # los D53S a agrupaciones o am%ientes realmente paralelos ha conducido a nuevas # recientes arquitecturas, tales como el acceso de memoria no uniforme 2.on &niform 3emor# *ccess / .&3*4. .&3* crea una sola gran mquina S3> al conectar m:ltiples nodos S3> en un solo 2aunque f$sicamente distri%uida4 %anco de memoria # un e)emplo :nico de !S. .&3* facilita el enfoque S3> para o%tener los %eneficios de performance de las grandes mquinas 3>> 2con EB o ms procesadores4, mientras se mantiene las venta)as de gestin # simplicidad de un am%iente S3> estndar. ?o ms importante de todo, es que e6isten D53S # aplicaciones que pueden moverse desde un solo procesador o plataforma S3> a .&3*, sin modificaciones. &.&./.& SISTE'AS DE GESTION DE BASES DE DATOS ?os data warehouses 2con)untamente con los sistemas de soporte de decisin RDecision Support S#stems / DSSS # las aplicaciones clienteMservidor4, fueron los primeros 6itos para el D53S relacional 2;elational Data 5ase 3anagement S#stems / ;D53S4. 3ientras la gran parte de los sistemas operacionales fueron resultados de aplicaciones %asadas en antiguas estructuras de datos, los depsitos # sistemas de soporte de decisiones aprovecharon el ;D53S por su fle6i%ilidad # capacidad para efectuar consultas con un :nico o%)etivo concreto. ?os ;D53S son mu# fle6i%les cuando se usan con una estructura de datos normali"ada. -n una %ase de datos normali"ada, las estructuras de datos son no redundantes # representan las entidades %sicas # las relaciones descritas por los datos 2por e)emplo productos, comercio # transaccin de ventas4. >ero un procesamiento anal$tico en l$nea 2!?*>4 t$pico de consultas que involucra varias estructuras, requiere varias operaciones de unin para colocar los datos )untos. ?a performance de los ;D53S tradicionales es me)or para consultas %asadas en claves 2=-ncuentre cuenta de cliente TB0AF=4 que para consultas %asadas en el contenido 2=-ncuentre a todos los clientes con un ingreso so%re U A0,000 que ha#an comprado un automvil en los :ltimos seis meses=4. >ara el soporte de depsitos a gran escala # para me)orar el inters hacia las aplicaciones !?*>, los proveedores han a7adido nuevas caracter$sticas al ;D53S tradicional. -stas, tam%in llamadas caracter$sticas super relacionales, inclu#en el soporte para hardware de %ase de datos especiali"ada, tales como la mquina de %ase de datos 8eradata. ?os modelos super relacionales tam%in soportan e6tensiones para almacenar formatos # operaciones relacionales 2ofrecidas por proveedores como ;ed5ric94 # diagramas de inde6acin especiali"ados, tales como aquellos usados por S#%ase (J. -stas tcnicas pueden me)orar el rendimiento para las recuperaciones %asadas en el contenido, al pre )untar ta%las usando $ndices o mediante el uso de listas de $ndice totalmente invertidos. 3uchas de las herramientas de acceso a los data warehouses e6plotan la naturale"a multidimensional del data warehouse. >or e)emplo, los analistas de mar9eting necesitan %uscar en los vol:menes de ventas por producto,

por mercado, por per$odo de tiempo, por promociones # niveles anunciados # por com%inaciones de estos diferentes aspectos. ?a estructura de los datos en una %ase de datos relacional tradicional, facilita consultas # anlisis a lo largo de dimensiones diferentes que han llegado a ser comunes. -stos esquemas podr$an usar ta%las m:ltiples e indicadores para simular una estructura multidimensional. *lgunos productos D53S, tales como -ss%ase # 1entium, implementan tcnicas de almacenamiento # operadores que soportan estructuras de datos multidimensionales. 3ientras las %ases de datos multidimensionales 23ultiDimensional Data%ases / 3DD5s4 a#udan directamente a manipular los o%)etos de datos multidimensionales 2por e)emplo, la rotacin fcil de los datos para verlos entre dimensiones diferentes, o las operaciones de drill down que sucesivamente e6ponen los niveles de datos ms detallados4, se de%e identificar estas dimensiones cuando se constru#a la estructura de la %ase de datos. *s$, agregar una nueva dimensin o cam%iar las vistas deseadas, puede ser engorroso # costoso. *lgunos 3DD5s requieren un recargue completo de la %ase de datos cuando ocurre una reestructuracin. &.&././ NUE0AS DI'ENSIONES &na limitacin de un ;D53S # un 3DD5, es la carencia de soporte para tipos de datos no tradicionales como imgenes, documentos # clips de videoM audio. Si usted necesita estos tipos de o%)etos en su data warehouse, %usque un D53S relacional/o%)eto 2-)emplo0 (llustra de (nformi64. >or su enfoque en los valores de datos codificados, la ma#or parte de los sistemas de %ase de datos pueden acomodar estos tipos de datos, slo con e6tensiones %asadas en cierta referencias, tales como indicadores de archivos que contienen los o%)etos. 3uchos ;D53S almacenan los datos comple)os como o%)etos grandes %inarios 25inar# ?arge !%)ects / 5?!5s4. -n este formato, los o%)etos no pueden ser inde6ados, clasificados, o %uscados por el servidor. ?os D53S relacional/o%)eto, de otro lado, almacenan los datos comple)os como o%)etos nativos # pueden soportar las grandes estructuras de datos encontradas en un am%iente orientado a o%)etos. -stos sistemas de %ase de datos naturalmente acomodan no slo tipos de datos especiales sino tam%in los mtodos de procesamiento que son :nicos para cada uno de ellos. >ero una desventa)a del enfoque relacional/o%)eto, es que la encapsulacin de los datos dentro de los tipos especiales de datos 2una serie de precios de stoc9 a travs del tiempo en cada registro de una ta%la de stoc9, por e)emplo4, requiere de operadores especiali"ados para que hagan %:squedas simples previamente 2por e)emplo, =-ncontrar todas las e6istencias que han mostrado una disminucin en el precio de *%ril a 3a#o A99K=4. ?a seleccin del D53S est tam%in su)eta al servidor de hardware que se usa. *lgunos ;D53S, como el D5B >aralelo, (nformi6 <>S # el !racle >aralelo, ofrecen versiones que soportan operaciones paralelas. -l software paralelo divide consultas, uniones a travs de procesadores m:ltiples # corre estas operaciones simultneamente para me)orar la performance. Se requiere el paralelismo para el me)or desempe7o en los servidores 3>> grandes # S3> agrupados. .o es a:n una opcin con 3DD5S o D53S relacional/o%)eto. -n la ta%la =,mo comparar D53S= se resume los pro # los contra de los diferentes tipos de D53S para operaciones de data warehouse. ?a ta%la =3atri" de Decisin del Data 'arehouse= contiene algunos e)emplos de cmo afectan estos criterios de decisin en la eleccin de una arquitectura de servidorM data warehouse.

C%$o co$parar DB'SesL Caracter=sticas7("nci%n Re aciona -structuras .ormali"adas 8ipos de datos a%stractos >aralelismo -structuras 3ultidimensionales Drill/Down S"per, Re aciona '" tidi$ensiona '" tidi$ensiona :L%*ico; :(=sico; O8<eto, Re aciona

;otacin !peraciones dependientes de datos Vsi

'atri> de Decisi%n para e Data Ware!o"se Para estos a$8ientesN Re6"eri$ientos co$ercia es A cance0 departamental Us"arios >eque7a / Soporte de Siste$as ?ocal m$nimo / E i<aN Ar6"itect"ra Ser-idor ,onsolidado / >rocesador :nico o S3> DB'S 3DD5

Usos0 anlisis de datos u%icacin :nica A cance0 departamental Usos0 anlisis ms informtica

central promedio paquete

1rande/analistas ?ocal m$nimo / en una sola u%icacinW usuarios informticos dispersos 1randeW geogrfica/ mente disperso central promedio

Seccionado / detalle en central/ resumen en local

1rupos de S3> ;D53S para para centralW central / 3DD5

S> o S3> para para local local

A cance0 empresa Usos0 anlisis ms informtica A cance0 departamental Usos0 investigacin

,entral fuerte

,entrali"ado

1rupos de S3>

!%)eto/ relacional/ soporte 'e%

>eque7a / pocas ,entral fuerte u%icaciones

,entrali"ado

3>>

;D53S con soporte paralelo

&.&./.2 CO'BINACION DE LA AR4UITECTURA CON EL SISTE'A DE GESTION DE BASE DE DATOS >ara seleccionar la com%inacin correcta de la arquitectura del servidor # el D53S, primero es necesario comprender los requerimientos comerciales de su compa7$a, su po%lacin de usuarios # las ha%ilidades del personal de soporte. ?as implementaciones de los data warehouses var$an aprecia%lemente de acuerdo al rea. *lgunos son dise7ados para soportar las necesidades de anlisis espec$fico para un solo departamento o rea funcional de una organi"acin, tales como finan"as, ventas o mar9eting. ?as otras implementaciones re:nen datos a travs de toda la empresa para soportar una variedad de grupos de usuarios # funciones. >or regla general, a ma#or rea del depsito, se requiere ma#or potencia # funcionalidad del servidor # el D53S. ?os modelos de uso de los data warehouses son tam%in un factor. ?as consultas # vistas de reportes preestructuradas frecuentemente satisfacen a los usuarios informticos, mientras que ha# menos demandas so%re el D53S # la potencia de procesamiento del servidor. -l anlisis comple)o, que es t$pico de los am%ientes de decisin/soporte, requiere ms poder # fle6i%ilidad de todos los componentes del servidor. ?as %:squedas masivas de grandes data warehouses favorecen el paralelismo en el D53S # el servidor. ?os am%ientes dinmicos, con sus requerimientos siempre cam%iantes, se adaptan me)or a una arquitectura de datos simple, fcilmente cam%ia%le 2por e)emplo, una estructura relacional altamente normali"ada4, antes que una estructura intrincada que requiere una reconstruccin despus de cada cam%io 2por e)emplo, una estructura multidimensional4.

-l valor de la data fresca requerida indica cun importante es para el data warehouse renovar # cam%iar los datos. ?os grandes vol:menes de datos que se refrescan a intervalos frecuentes, favorecen una arquitectura f$sicamente centrali"ada para soportar una captura de datos eficiente # minimi"ar el tiempo de transporte de los datos. &n perfil de usuario de%er$a identificar quines son los usuarios de su data warehouse, dnde se u%ican # cuntos necesita soportar. ?a informacin so%re cmo cada grupo espera usar los data warehouses, a#udar a anali"ar los diversos estilos de uso. ,onocer la u%icacin f$sica de sus usuarios a#udar a determinar cmo # a qu rea necesita distri%uir el data warehouse. &na arquitectura por niveles podr$a usar servidores en el lugar de las redes de rea local. ! puede necesitar un enfoque centrali"ado para soportar a los tra%a)adores que se movili"an # que tra%a)an en el depsito desde sus laptops. -l n:mero total de usuarios # sus modelos de cone6in determinan el tama7o de sus servidores de depsito. ?os tama7os de memoria # los canales de (M! de%en soportar el n:mero previsto de usuarios concurrentes %a)o condiciones normales, as$ como tam%in en las horas punta de su organi"acin. inalmente, se de%e factori"ar la sofisticacin del personal de soporte. ?os recursos de los sistemas de informacin 2(nformation S#stem / (S4 que estn disponi%les dentro de su organi"acin, pueden limitar la comple)idad o sofisticacin de la arquitectura del servidor. Sin el personal especiali"ado interno o consultores e6ternos, es dif$cil de crear # mantener satisfactoriamente una arquitectura que requiere paralelismo en la plataforma del servidor 23>> o S3> agrupado, por e)emplo4. &.&./.3 PLANES DE EHPANSION ,omo su depsito evoluciona # los datos que contiene llegan a ser ms accesi%le, los empleados e6ternos al depsito podr$an descu%rir tam%in el valor de sus datos. *l enla"ar su data warehouse a otros sistemas 2tanto internos como e6ternos a la organi"acin4, se puede compartir informacin con otras entidades comerciales con poco o sin desarrollo. ?os mensa)es -/mail, servidores 'e% # cone6iones (ntranetM(nternet, pueden entregar listas por niveles a sus proveedores o seg:n su condicin, a sus socios de negocio. ,omo los data warehouses contin:an creciendo en sofisticacin # uso, los datos acumulados dentro de una empresa llegarn a ser ms organi"ados, ms interconectados, ms accesi%les #, en general, ms disponi%les a ms empleados. -l resultado ser la o%tencin de me)ores decisiones en el negocio, ms oportunidades # ms claridad de tra%a)o. &.&.2 CON(IABILIDAD DE LOS DATOS ?a data =sucia= es peligrosa. ?as herramientas de limpie"a especiali"adas # las formas de programar de los clientes proporcionan redes de seguridad. .o importa cmo est dise7ado un programa o cun h%ilmente se use. Si se alimenta mala informacin, se o%tendr resultados incorrectos o falsos. Desafortunadamente, los datos que se usan satisfactoriamente en las aplicaciones de l$nea comercial operacionales pueden ser %asura en lo que concierne a la aplicacin data warehousing.

?os datos =sucios= pueden presentarse al ingresar informacin en una entrada de datos 2por e)emplo, =Sitsemas S. *.= en lugar de =Sistemas S. *.= 4 o de otras causas. ,ualquiera que sea, la data sucia da7a la credi%ilidad de la implementacin del depsito completo. * continuacin, en la igura .@ BE se muestra un e)emplo de formato de ventas en el que se pueden presentar errores. *fortunadamente, las herramientas de limpie"a de datos pueden ser de gran a#uda. -n algunos casos, puede crearse un programa de limpie"a efectivo. -n el caso de %ases de datos grandes, imprecisas e inconsistentes, el uso de las herramientas comerciales puede ser casi o%ligatorio. Decidir qu herramienta usar es importante # no solamente para la integridad de los datos. Si se equivoca, se podr$a malgastar semanas en recursos de programacin o cientos de miles de dlares en costos de herramientas. &.&.2.1 LI'PIEIA DE LOS DATOS ?a limpie"a de una data =sucia= es un proceso multifactico # comple)o. ?os pasos a seguir son los siguientes0 11 *nali"ar sus datos corporativos para descu%rir ine6actitudes, anomal$as # otros pro%lemas. &1 8ransformar los datos para asegurar que sean precisos # coherentes.

/1 *segurar la integridad referencial, que es la capacidad del data warehouse, para identificar correctamente al instante cada o%)eto del negocio, tales como un producto, un cliente o un empleado. 21 Dalidar los datos que usa la aplicacin del data warehouse para reali"ar las consultas de prue%a. 31 >roducir la metadata, una descripcin del tipo de datos, formato # el significado relacionado al negocio de cada campo. @1 inalmente, viene el paso crucial de la documentacin del proceso completo para que se pueda ampliar, modificar # arreglar los datos en el futuro con ms facilidad. -n la prctica, se tendr$a que reali"ar m:ltiples pasos como parte de una operacin :nica o cuando use una sola herramienta. -n particular, limpiar la data # asegurar la integridad referencial son procesos interdependientes. ?as herramientas comerciales pueden a#udar en cada uno de estos pasos. Sin em%argo, es posi%le escri%ir sus propios programas para hacer el mismo tra%a)o. ?os programas de limpie"a de datos no proporcionan mucho ra"onamiento, por lo que las compa7$as necesitan tomar sus decisiones en forma manual, %asados en informacin importante # reportes de auditor$a de datos. ,ada ve" que se carga un nuevo con)unto de datos, la limpie"a de datos com:nmente constitu#e cerca del BI por ciento de lo que puede ser un proceso de cuatro semanas. * continuacin, se darn algunos e)emplos de las e6periencias de las empresas que han reali"ado limpie"a de datos para un am%iente data warehousing. E1em#"o 12 CompuCom Systems, un gran integrador de sistemas basados en Dallas, implement un registro de 12 millones, en un depsito de 10 Gb para el soporte de decisiones internas y de los clientes, segn el orden y la condicin y producir informacin por medio del Web. CompuCom implement algunas rutinas de me oramiento de datos en lengua es de cuarta generacin !"G#$, asociado con su base de datos %rogress, la cual corre sobre un &% '000. (l incremento incluye desciframiento de )alores de columnas en descripciones inglesas cortas o mnemotecnia. (l cdigo de limpie*a de datos, tales como las con)ersiones de fec+a y datos, est,n escritas en lengua e C. #a )enta a de -sto es .ue CompuCom a+ora posee estas rutinas y puede usarlas en otras aplicaciones. #os usuarios ayudaron a definir los re.uerimientos de limpie*a de datos, ya .ue son ellos los .ue me or conocen los datos y pueden informar sobre .u- tipo de datos sucios deben salir y cmo limpiarlos. #a compa/0a no usa una +erramienta de limpie*a comercial por.ue gran parte de sus datos est, en la misma forma b,sica. 1s0, la compa/0a puede f,cilmente usar de nue)o las rutinas escritas. #a des)enta a principal +a sido la cantidad de tiempo de desarrollo !alrededor de una semana$ .ue se necesit para crear las rutinas. 1un.ue tienen cierta dificultad de tiempo para mantenerse al d0a con la demanda y +an buscado pa.uetes de soft2are 3comercial4, no +an encontrado an, en el mercado, algo .ue se a uste me or a sus re.uerimientos. E1em#"o *2 5+io Casualty 6nsurance !&amilton, 5&$ e7periment por dos a/os con la limpie*a in8+ouse, usando programas C595#, antes de usar la +erramienta comercial, 6ntegrity Data :eengineering ;ool de <ality ;ec+nology. (l data 2are+ouse de 5+io Casualty combina registros asociados con alrededor de 1 milln de pli*as de seguro personales, incluyendo auto y pli*as de casa propia. Como una prueba, la compa/0a comen* con =,>00 pli*as de sus empleados. Sin embargo, es dif0cil tratar de programar para todas las situaciones en .ue se puede caer. Despu-s de tomar un a/o en desarrollar programas gen-ricos de e7traer? transformar?cargar, se necesit otro a/o, para programar en Cobol y editar el manual, para conseguir los datos de las pli*as correctos para el depsito.

#a +erramienta <ality 6ntegrity Data :eengineering ayuda a atacar el primer con unto de datos de los clientes 8 alrededor de 1>, 000 pli*as en el centro comercial Den)er de la compa/0a. 1un.ue el personal de 5+io Casualty toda)0a necesita in)estigar las anomal0as .ue +a descubierto el producto <ality, no se +a re.uerido ninguna programacin o redaccin del manual de los datos. #os datos estu)ieron listos para el depsito en alrededor de seis semanas. E<e$p o /F 6ntel !&illsboro$ es un e emplo de compa/0a .ue +a reali*ado e7itosamente una limpie*a de datos in8+ouse, aun.ue con ciertos problemas. 6nicialmente pretendi encargar su limpie*a de datos a una agencia de ser)icios, para un depsito de apro7imadamente 1 milln de registros tomados desde cinco sistemas operacionales. #a agencia de ser)icios prometi identificar las relaciones entre los di)ersos grupos dentro de las compa/0as clientes. 1dem,s, la agencia pro)eer0a informacin industrial para las organi*aciones de clientes, tales como el nmero de empleados, las rentas y el crecimiento, las cuales ser0an )aliosas para las )entas de 6ntel. Desafortunadamente, la agencia de ser)icio no +i*o un buen traba o de identificar las relaciones entre los clientes, lo .ue dio como resultado el +ec+o de .ue algunas personas estu)ieron asociadas con compa/0as e.ui)ocadas. 6ntel tom la cinta de la agencia de ser)icio y luego corri los datos con el pa.uete de an,lisis estad0stico S1S, del 6nstituto S1S, para identificar y corregir los problemas con las relaciones con un tope de 10 agrupaciones !es decir, las primeras compa/0as en una relacin er,r.uica nica$. #a compa/0a luego us las +erramientas de base de datos 5racle para propiciar el an,lisis y la limpie*a. @a .ue la nue)a data llegaba todo el tiempo, algunas de las rutinas de limpie*a de 5racle fueron implementadas como procedimientos almacenados para .ue puedan correr autom,ticamente contra la nue)a data. 6ntel an persiste en encargar las tareas de la limpie*a de los datos. Sin embargo, la compa/0a planea mantener la limpie*a in8+ouse +asta .ue encuentre una agencia de ser)icio aceptable. E1em#"o 32 CrediCard !SAo %aulo, 9rasil$, un gran emisor de tar etas de cr-dito en Sudam-rica, consigui +erramientas de limpie*a y me ora de datos como parte de la implementacin de un data 2are+ouse por BarCet Dno2ledge, una filial de (.uifa7. (l personal de comerciali*acin de CrediCard usa apro7imadamente 200 rutinas para efectuar operaciones de limpie*a, tales como la eliminacin de datos malos o sin uso, correccin de )alores e.ui)ocados y estandari*acin de formatos di)ersos. 1dem,s, ellos pueden me orar los datos al reali*ar operaciones como correccin de cantidades monetarias por la inflacin y la de)aluacin, creando un campo de edad )irtual basado en la fec+a de nacimiento de una persona y a/adiendo datos de censos a los registros entrantes. (stas rutinas !por e emplo, correccin de inflacin$ fa)orecen particularmente a los re.uerimientos brasile/os. (llos adem,s est,n dise/ados para el uso del personal de comerciali*acin no8t-cnico. #as rutinas de limpie*a de los datos, las cuales son programadas como comandos SE#, emple slo alrededor de tres personas por semana para crearlas 8 una porcin m0nima de un proyecto de 2 a/os y medio. #as +erramientas para me orar los datos, m,s automati*adas y m,s inteligentes, representan alrededor de F 120,000 del total del proyecto de F G"0,000. &.&.2.& Tipos de Li$pie>a de Datos a; Li$pie>a de datos $oderada Si decide no programar funciones de limpie"a de datos o contratar un consultor para hacer el tra%a)o, puede inhi%irse tam%in de la compra de una herramienta espec$fica para esa tarea. -l software de gestin del data warehouse puede ser suficiente para limpiar # validar seg:n sus propsitos. 3uchos pro#ectos de data warehouse usan productos como 'arehouse 3anager de >rism Solutions o >assport de ,arleton, para una gama de tareas de gestin de data warehouse, que inclu#en0

-6traccin de los datos desde las %ases de datos operacionales

o o

>reparacin de los datos para cargarlos en una %ase de datos del depsito, *dministracin de la metadata.

-stos productos cuestan desde U OI,000 a ms de U B00,000, dependiendo del tama7o # la comple)idad del pro#ecto # pueden tam%in limpiar, transformar # validar. E1em#"o 42 #a Hni)ersidad (mory !1tlanta$ +ace la limpie*a de toda la data para su depsito de I Gb con programas en Cobol generados por %rism Ware+ouse Banager. 1dem,s de tener problemas t0picos, tales como formatos mltiples de fec+a, la data con frecuencia contiene campos no iniciali*ados .ue retienen )alores arbitrarios. Dos miembros del personal utili*an como " +oras de un d0a de traba o en las tareas de limpie*a de datos. (mory +a considerado usar +erramientas de limpie*a de datos especiali*ados, pero la escuela est, eliminando la data sucia +asta a+ora, lo suficientemente bien, .ue no )e el )alor adicional en otros productos comerciales para ustificar la compra. Sin embargo, tienen una buena oportunidad de .ue las +erramientas mencionadas anteriormente de %rism y Carleton no limpien todo lo .ue se necesite. (llos pueden encontrar anomal0as comunes .ue pueden mane arse mediante simples tablas de bs.ueda de informacin !por e emplo, reconocer .ue 1)enida y 1). representan la misma informacin$, pero podr0an no salir e7itosos con irregularidades m,s importantes e impredecibles, por.ue estas +erramientas no est,n dise/adas para +acer tipos de limpie*a de gran intensidad. Si los datos que requieren limpie"a consisten predominantemente de nom%res 2inclu#endo nom%res de compa7$a4 # direcciones, las compa7$as tales como Garte/Gan9s ,ommunications e (nnovative S#stems proveen no solamente herramientas de software, sino que actuali"an peridicamente los archivos de datos para a#udar a com%inar las variantes de los nom%res de las compa7$as, detectar cdigos postales que no corresponden a las direcciones proporcionadas # encontrar anomal$as similares. -stas herramientas pueden ser apropiadas en otros campos 2aparte de nom%res # direcciones4 que sean conocidos para ser corregidos 2por e)emplo, cantidades de dlar devaluados que han sido validados por las cuentas4 o contengan informacin independiente que no ser usada como una llave o $ndice 2por e)emplo, las anotaciones de contacto de los vendedores4. ?as soluciones orientadas al nom%re # la direccin pueden costar en cualquier parte desde U E0,000 a ms de U B00,000, dependiendo del tama7o del data warehouse en cuestin. *dems se necesita, una herramienta de e6traerM transformarMcargar 2-6tract, 8ransform, ?oad / -8?4, tales como el 'arehouse 3anager o >assport. ?amenta%lemente, en el pa$s no e6isten empresas que se especialicen en estas actividades. Slo corporaciones internacionales como las de *rthur *ndersen han efectuado limpie"a de datos en nuestro medio en %ancos privados # mu# pocos organismos p:%licos.

8; Li$pie>a de datos intensa >ara tra%a)os de limpie"a intensos, se de%en considerar herramientas que se han desarrollado para esas tareas. -6isten dos grandes competidores0 -nterpriseM(ntegrator de *pertus 8echnologies # la herramienta (ntegrit# Data ;eengineering de Dalit#.

(nfo.ue ;op8Do2n

?a empresa -nterpriseM(ntegrator toma un enfoque top/down, en la que usted propone las reglas para limpiar los datos. -sta es una estrategia directa, donde usted impone sus conocimientos so%re su negocio en los datos. >or e)emplo0 JDesea usted tratar una serie de concesiones de Bart+aKs Lried C+icCen como un cliente nico con direcciones mltiplesM %ara los propsitos del data 2are+ouse, Jtiene sentido sustituir una direccin central nica para las diferentes direcciones de las concesionesM

5, Jle gustar0a tratar las ubicaciones de las concesiones como clientes completamente diferentesM (sta decisin determina cmo se agrega o consolida estos registros y si se trata las diferentes direcciones de Bart+aKs Lried C+icCen como e7cepciones. ?a empresa -nterpriseM(ntegrator ofrece no solamente limpie"a de datos, sino tam%in e6traccin, transformacin, carga de datos, repeticin, sincroni"acin # administracin de la metadata. -s %astante caro 2de UAE0,000 a UBI0,0004, pero se puede ahorrar dinero si elimina la necesidad de otras herramientas de gestin de data warehouse. ?a desventa)a principal del enfoque top/down de -nterpriseM(ntegrator es que usted tiene que conocer, o ser capa" de deducir las reglas del negocio # de la limpie"a de datos. *pertus provee e)emplos para tra%a)ar con muchas estructuras comerciales # e6cepciones comunes. *:n as$, crear reglas es consumo de tiempo # est seguro de encontrar algunas e6cepciones no esperadas. -stos pueden mane)arse manualmente mediante un sistema de e6cepto / manipulacin, pero es un proceso que consume tiempo.

(nfo.ue 9ottom8HpN

?a herramienta (ntegrit# Data ;eengineering de Dalit# tiene un enfoque %ottom/up. *nali"a los datos caracter por caracter # automticamente emergen los modelos # las reglas del negocio. (ntegrit# proporciona un dise7o de la data para a#udar a normali"ar, condicionar # consolidar los datos. -ste enfoque tiende a de)ar pocas e6cepciones para mane)arse manualmente # el proceso tiende a consumir menos tiempo. *l igual que -nterpriseM(ntegrator, (ntegrit# puede tomar en cuenta las relaciones comerciales que no son o%vias a partir de los datos, tales como fusiones # adquisiciones que han tenido lugar desde que fueron creados los datos. >ero con cualquier herramienta, estas reglas de%en imponerse con un modelo top/down. (ntegrit# incide e6clusivamente so%re la limpie"a de los datos, comen"ando desde los archivos %sicos. .o e6trae los datos desde %ases de datos operacionales, carga los datos en la %ase de datos del depsito, duplica # sincroni"a los datos o administra la metadata. >or ello, adems de costar U BI0,000, (ntegrit# podr$a requerir tam%in una herramienta como 'arehouse 3anager o >assport. Sin em%argo, pueden ser suficientes los utilitarios disponi%les con la %ase de datos para una simple e6traccinMcarga. &.&.3 (ACTORES DECISI0OS PARA DECIDIR EL DESARROLLO DE UN DATA WAREHOUSE ?a data sucia es un serio peligro para el 6ito de un pro#ecto de data warehouse. Dependiendo del alcance del pro%lema, simplemente podr$a no ser posi%le dirigirlo rpidamente # a%aratarlo. ?os principales factores son0

o o

-l tiempo que toma la programacin interna -l costo de las herramientas

?os gerentes de pro#ectos de Data 'arehouse necesitan evaluar el pro%lema con realismo, los recursos internos disponi%les para distri%uirlos # seleccionar la solucin que se adapte a la planilla # presupuesto del pro#ecto, o modificar la planilla # el presupuesto para solucionar el pro%lema. &./ (ASEF I'PLE'ENTACION -n esta fase, el pro#ecto de data warehouse de%e tener asignado el lidera"go adecuado, as$ como, los recursos humanos, recursos tecnolgicos # el presupuesto apropiado. Sin em%argo, de%en evaluarse otros aspectos, como desarrollar un pro#ecto en su totalidad o por fases # adems, diferenciar el tipo de pro#ecto a reali"ar. &./.1 ELE'ENTOS A CONSIDERAR EN LA I'PLE'ENTACION a; Pro5ecto Tota o Pro5ecto en (ases

-s ms via%le el desarrollo de un pro#ecto en fases que produ"can resultados a corto pla"o que el desarrollo de un pro#ecto que entregue resultados al trmino de varios a7os. >or ello, el pro#ecto de%e estar centrado en un rea o un proceso. 8; 'ode o %*ico de datos -l modelo lgico de datos de%e tener un alcance ms alto # cu%rir todas las reas de inters, as$ como los procesos ms estratgicos de cada una de ellas. -)emplo0 >uede cu%rir las reas de mercadeo, crdito # comerciali"acin # los procesos de segmentacin, scoring para retencin, scoring para crdito # gestin de clientes, productos # canales de ventas. c; Pro5ecto Especia i>ado o Pro5ecto Base Decidir so%re qu tipo de pro#ecto, es algo complicado. &n pro#ecto especiali"ado soporta directamente un proceso espec$fico, por e)emplo0 retencin de clientes. &n pro#ecto %ase entrega capacidad genrica de anlisis a todos los usuarios que tengan acceso al data warehouse, pero no tiene, entre sus funcionalidades, la solucin de un pro%lema espec$fico o el soporte especiali"ado de un proceso espec$fico. &n pro#ecto %ase es ms econmico # fcil de aca%ar que uno especiali"ado, ms costoso # dif$cil de terminar. &./.& ESTRATEGIAS PARA EL PROCESO DE I'PLE'ENTACION De%en definirse las siguientes0 11 (dentificar el pro%lema en el cual el uso estratgico de la informacin detallada, permita conseguir una solucin para generar una venta)a competitiva o un ahorro de costos. -)emplo0 &n pro%lema puede ser la ausencia de un modelo para estudios de retencin de clientes. &1 Definir el modelo lgico de datos a implementar para resolver el pro%lema planteado. -)emplo0 Se puede dar un modelo lgico cuando se presenta al usuario la informacin en trminos de dimensiones 2clientes, productos, canales de ventas, promociones, adquirientes, etc4 %sicas del modelo de datos # hechos que se registrarn para estas dimensiones 2medidas de ventas, de costos, de produccin, de facturacin, de cartera, de calidad, de servicio, etc.4. /1 ;eunir los datos para po%lar ese modelo lgico de datos.

21 8omar iniciativas de complementacin de informacin para asegurar la calidad de los datos requeridos para po%lar el modelo de datos. -stas definiciones de%en estar acompa7adas de un servidor apropiado para el data warehouse, as$ como elementos de comunicaciones, nodos cliente, el mane)ador de la %ase de datos del data warehouse # otros hardware # software requeridos para la implementacin del pro#ecto. &././ ESTRATEGIAS EN LA I'PLE'ENTACION De%en plantearse las siguientes0 11 Definir el me)or dise7o f$sico para el modelo de datos. -l dise7o f$sico de%e estar orientado a generar %uen rendimiento en el procesamiento de consultas, a diferencia del modelo lgico que est orientado al usuario # a la facilidad de consulta. &1 Definir los procesos de e6traccin, filtro, transformacin de informacin # carga de datos que se de%en implementar para po%lar ese modelo de datos. /1 Definir los procesos de administracin de la informacin que permanece en el data warehouse

21 Definir las formas de consultas a la informacin del data warehouse que se le proporcionar al usuario. >ara sto, de%e considerarse la necesidad de resolver un pro%lema # la potencia de consulta. 31 ,ompletar el modelo de consulta %ase, relativo al rea seleccionada. @1 (mplementar los procesos estratgicos del rea de tra%a)o, es decir, implementar herramientas especiali"adas de scoring, herramientas especiali"adas para induccin de conocimiento 2Data 3ining4, etc. B1 ,ompletar las reas de inters, en forma similar a lo descrito anteriormente. *.3 ase2 Eva"uacin &.2.1 E0ALUACION DE RENDI'IENTO DE LA IN0ERSION ,uando se eval:an los costos, el usuario del data warehouse puede no tener el contenido de los costos en mente, pero las preguntas m$nimas que puede comen"ar a hacerse son las siguientes0 A. PJu clases de costos e6cedieron el presupuesto en ms del A0H en cada uno de los AB meses pasadosQ B. PSe aumentaron los presupuestos en ms de IH para cualquier rea dentro de los :ltimos AL mesesQ E. P,mo especificar las clases de gasto entre diferentes departamentosQ P-ntre divisionesQ P* travs de las regiones geogrficasQ F. P,mo tener mrgenes de operacin so%re los dos :ltimos a7os en cada rea de negocioQ Donde han disminuido los mrgenes, Pse han incrementado los costosQ

,on frecuencia, los aspectos realmente importantes identificados por una gestin ma#or, tienen un valor agregado, en el que ellos sa%en si tuvieron la informacin que esta%an %uscando, lo que significar$a una me)ora de 2por e)emplo4 las ventas en 0.IH a AH / que, si su operacin estuvo por los %illones de dlares en un a7o, puede resultar en cientos de millones de dlares. -n algunos casos, el costo del depsito inicial se ha reco%rado en un per$odo de K a L meses. *l hacerse preguntas de este tipo, los usuarios comien"an a identificar las reas en la que los costos han aumentado o disminuido significativamente # pueden evaluar cada una de estas reas con ms detalle. Caso pr+cticoF (n un estudio encargado por 20 )endedores y consultores, se encontr un :etorno %romedio ;otal de la in)ersin !:eturn 5n 6n)estment8:56$ de "01O. Se encontr una compa/0a .ue genera cerca de 1I,000O en su estudio sobre I2 organi*aciones. ;ambi-n, se e7cluyeron los proyectos fracasados, as0 como los e ecutados e7cepcionalmente !tantos buenos como malos$. Dic+o estudio puede resumirse en el siguiente cuadroN Cambios en e" 5a"or :56 promedio total :56 promedio del proyecto m,s grande :56 promedio del modelo complementario de datos :56 mediano %er0odo de reembolso promedio Costo promedio "01O =22O >==O 1I0O 2.= 1/os 2.2 Billones

&.2.1.1 COSTOS A BENE(ICIOS Se han identificado diversos costos # %eneficios en la ela%oracin de un pro#ecto de construccin de un data warehouse, tales como0 a; Costos

o o o o o o o o o o o

Costos preliminares >lanificacin Dise7o 3odelamientoM(ngenier$a de (nformacin Costos iniciales >lataforma de hardware Software de %ase de datos Gerramientas de transferencia # limpie"a de datos Costos en procesamiento 3antenimiento de datos Desarrollo de aplicaciones ,apacitacin # soporte

8; Bene#icios

o o o o o o o o

9eneficios ;,cticos (mpresin # emisin de reporte reducido Demanda reducida para consultas de clientes -ntrega ms rpida de informacin a los usuarios 9eneficios (strat-gicos !%otencialidad$ *plicaciones # herramientas de acceso para los usuarios finales Decisiones con ma#or informacin 8oma de decisiones ms rpida ,apacidad de soporte a la informacin organi"acional &.2.& BENE(ICIOS A OBTENER

a; Para a E$presa -l data warehouse hace lo posi%le por aprovechar el valor potencial enorme de los recursos de informacin de la empresa # volver ese valor potencial en valor verdadero. 8; Para os Us"arios -l data warehouse e6tiende el alcance de la informacin para que puedan accesar directamente en l$nea, lo que a la ve" contri%u#e en su capacidad para operar con ma#or efectividad las tareas rutinarias o no. ?os usuarios del data warehouse pueden accesar a una rique"a de informacin multidimensional, presentado coherentemente como una fuente :nica confia%le # disponi%le a ellos por medio de sus estaciones de tra%a)o. ?os usuarios pueden usar sus herramientas familiares, ho)as de clculo, procesadores de te6tos # software de anlisis de datos # anlisis estad$stico para manipular # evaluar la informacin o%tenida desde el data warehouse. c; Para a Or*ani>aci%n en Tecno o*=as de In#or$aci%n -l data warehouse enriquece las capacidades del usuario autosuficiente # hace lo facti%le para ofrecer nuevos servicios a los usuarios, sin interferir con las aplicaciones cotidianas de produccin. ?a pugna constante por resolver las necesidades de usuarios que piden acceso a los datos operacionales, finali"a con la implementacin de un data warehouse. ?a ma#or$a de los usuarios no necesita accesar ms a los datos actuales, porque ellos tienen informacin ms :til disponi%le desde el data warehouse. &n data warehouse aumenta el valor de las inversiones en tecnolog$as de informacin, en aplicaciones # %ases de datos operacionales. ,omo estas %ases de datos alimentan informacin, al evolucionar el data warehouse, llegan a ser imprescindi%les no solamente para las operaciones diarias, sino adems como la fuente de informacin del negocio de amplio rango. SO T/ARE EN .N $ATA /ARE0O.SE SO(TWARE EN UN DATA WAREHOUSE

?a informacin estratgica so%re clientes importantes o un e6itoso lan"amiento de producto, se almacena en giga%#tes de datos de mar9eting o $ndice de transacciones de venta. -sa informacin de%e ser e6tra$da de alguna forma para la toma de decisiones. -n este caso se necesita software especiali"ado que permita capturar los datos relevantes en forma rpida # pueda verse a travs de diferentes dimensiones de los datos. -l software no de%er$a limitarse :nicamente al acceso a los datos, si no tam%in, al anlisis significativo de los datos. -n efecto, transformar los datos de la informacin cruda o no procesada, en informacin :til para la empresa. ?os softwares o herramientas de negocios inteligentes se colocan so%re la plataforma data warehousing # proveen este servicio. De%ido a que son el punto principal de contacto entre la aplicacin del depsito # la gente que lo usa, estas herramientas pueden constituir la diferencia entre el 6ito o fracaso de un depsito. ?as herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisin, pero tienen un alcance ms amplio. .o solamente a#udan en las decisiones de soporte sino, en muchos casos, estas herramientas soportan muchas funciones operacionales # de misin/cr$tica de la compa7$a. Sin em%argo, estos productos no son infali%les #a que slo se consigue el m6imo provecho del data warehouse, si elige las herramientas adecuadas a las necesidades de cada usuario final. ?os software usados en un data warehouse se clasifican en Gerramientas de ,onsulta # ;eporte, Gerramientas de 5ase de Datos 3ultidimensionalesM !lap 2!n ?ine *nal#tical >rocessing4, Sistemas de (nformacin -)ecutivos, Gerramientas Data 3ining # los Sistemas de 1estin de 5ases de Datos propiamente. -n el *ne6o .@ A, se muestra una lista de los softwares e6istentes en la tecnolog$a Data warehousing. /.1 HERRA'IENTAS DE CONSULTA A REPORTE -6iste una gran cantidad de poderosas herramientas de consulta # reporte en el mercado 2Der *ne6o A/*4. *lgunos proveedores ofrecen productos que permiten tener ms control so%re qu procesamiento de consulta es hecho en el cliente # qu procesamiento en el servidor. ?as ms simples de estas herramientas son productos de reporte # consultas %sicas. -llos proporcionan desde pantallas grficas a generadores SJ? 2o ms preciso, generadores de acceso/llamada a %ase de datos4. 3s que aprender SJ? o escri%ir un programa para accesar a la informacin de una %ase de datos, las herramientas de consulta al igual que la ma#or$a de herramientas visuales, le permiten apuntar # dar un clic9 a los men:s # %otones para especificar los elementos de datos, condiciones, criterios de agrupacin # otros atri%utos de una solicitud de informacin. ?a herramienta de consulta genera entonces un llamado a una %ase de datos, e6trae los datos pertinentes, efect:a clculos adicionales, manipula los datos si es necesario # presenta los resultados en un formato claro. Se puede almacenar las consultas # los pedidos de reporte para tra%a)os su%siguientes, como est o con modificaciones. -l procesamiento estad$stico se limita com:nmente a promedios, sumas, desviaciones estndar # otras funciones de anlisis %sicas. *unque las capacidades var$an de un producto a otro, las herramientas de consulta # reporte son ms apropiadas cuando se necesita responder a la pregunta P=Ju sucedi=Q 2-)emplo0 P=,mo comparar las ventas de los productos <,C # X del mes pasado con las ventas del presente mes # las ventas del mismo mes del a7o pasadoQ=4. >ara hacer consultas ms accesi%les a usuarios no/tcnicos, los productos tales como ,r#stal ;eports de Seagate, (mpromptu de ,ognos, ;eportsmith de 5orland, (ntelligent Juer# de (J Software, -sperant de Software *1 # 1J? de *nd#ne, ofrecen interfases grficas para seleccionar, arrastrar # pegar. ?o ms avan"ado de estos productos lo orientar hasta las consultas que tienen sinta6is mala o que devuelven resultados imprevistos. -l acceso a los datos han me)orado tam%in con las nuevas versiones de estos productos # los vendedores #a instalan drivers estndares tales como !D5, # EB/%it nativo, hasta fuentes de datos comerciales. -n general, los administradores de data warehouses que usen estos tipos de productos, de%en estar dispuestos a ocupar su tiempo para resolver las tareas de estructuracin, como administrar %i%liotecas # directorios, instalar software de conectividad, esta%lecer nom%res similares en (ngls # precalcular =campos de datos virtuales=. &na ve" que se han creado las pantallas SJ?, puede necesitar desarrollar un con)unto de consultas # reportes estndares, aunque algunos productos ofrecen li%rer$as de plantillas predise7adas # reportes predefinidos que se pueden modificar rpidamente.

/.& HERRA'IENTAS DE BASE DE DATOS 'ULTIDI'ENSIONALES 7 OLAP ?os generadores de reporte tienen sus limitaciones cuando los usuarios finales necesitan ms que una sola, una vista esttica de los datos, que no sean su)eto de otras manipulaciones. >ara estos usuarios, las herramientas del procesamiento anal$tico en l$nea 2!?*> / !n ?ine *nal#tical >rocessing4, proveen capacidades =Slide # Dice= que contestar$a =Pqu sucediQ= al anali"ar por qu los resultados estn como estn. ?as primeras soluciones !?*> estuvieron %asadas en %ases de datos multidimensionales 23DD5S4. &n cu%o estructural 2dos veces un hipercu%o o un arreglo multidimensional4 almacena%a los datos para que se puedan manipular intuitivamente # claramente ver las asociaciones a travs de dimensiones m:ltiples. ?os productos pioneros tal como -ss%ase de *r%or Software soportan directamente las diferentes vistas # las manipulaciones dimensionales requeridas por !?*>. Li$itaciones de en#o6"e de 8ases de datos $" tidi$ensiona esF 1ra.F ?as nuevas estructuras de almacenamiento de datos requieren %ases de datos propietarias. .o ha# realmente estndares disponi%les para accesar a los datos multidimensionales. ?os proveedores como *r%or, vieron sto como una oportunidad para crear de facto normas para editar 3DD5 *>(s, propiciando herramientas terceristas # esta%leciendo asociaciones estratgicas. 3uchas de estas herramientas de consulta # de soluciones data/mining soportan directamente -ss%ase, !racle -6press # otros formatos 3DD5 comunes. -l ,ommander !?*>, herramienta clienteMservidor de ,omshare, se sit:a so%re la parte superior de un data warehouse multidimensional -ss%ase # soporta el acceso dinmico # la manipulacin de los datos. &da.F ?a segunda limitacin de un 3DD5 concierne al desarrollo de una estructura de datos. ?as compa7$as generalmente almacenan los datos de la empresa en %ases de datos relacionales, lo que significa que alguien tiene que e6traer, transformar # cargar estos datos en el hipercu%o. -ste proceso puede ser comple)o # consumidor de tiempo pero, nuevamente, los proveedores estn investigando la forma de solucionarlos. ?as herramientas de e6traccin de datos # otras automati"an el proceso, tra"ando campos relacionales en la estructura multidimensional # desarrollando el 3DD5 so%re la marcha. *lgunos proveedores ofrecen ahora la tcnica !?*> relacional 2;elational !n ?ine *nal#tical >rocessing / ;!?*>4, que e6plora # opera en el data warehouse directamente usando llamadas SJ? estndares. ?as herramientas de pantallas permiten retener los pedidos multidimensionales, pero el motor ;!?*> transforma las consultas en rutinas SJ?. -ntonces se reci%e los resultados ta%ulados como una ho)a de clculos multidimensional o en alguna otra forma que soporte rotacin, drilling down # reduccin. *s$ como la e6traccin de los datos, el desarrollo # evolucin de la estructura 3DD5 puede cam%iarse. ?os administradores ;!?*> de%en afrontar algunas veces las tareas 2ago%iantes4 de desarrollar las rutinas SJ? para agregar e inde6ar los datos ;!?*>, as$ como, asegurar la traduccin correcta de los pedidos multidimensionales en la ventana de comandos SJ?. ?os defensores de ;!?*> argumentan que se usan estndares a%iertos 2SJ?4 # que se esquemati"a 2nivel de detalle4 los datos para hacerlos ms fcilmente accesi%les. >or otra parte, argumentan que una estructura multidimensional nativa logra me)or performance # fle6i%ilidad, una ve" que se desarrolla el almacn de los datos. ?o %ueno es que estas tecnolog$as evolucionan rpidamente #Mo pueden proveer una pronta solucin !?*>. *lgunos productos e)emplos son >ower>la# de ,ognos, 5usiness !%)ects con el software del mismo nom%re, 5rio Juer# de 5rio 8echnolog# # una serie de DSS *gentMDSS Server de 3icroStrateg#. ?os retos administrativos # de desarrollo de !?*>, a diferencia de las encontradas con las herramientas de consulta # reporte, son generalmente ms comple)os. Definiendo el !?*> # el software de acceso a los datos, se requiere un claro entendimiento de los modelos de datos de la corporacin # las funciones anal$ticas requeridas por e)ecutivos, gerentes # otros analistas de datos. -l desarrollo de productos comerciales pueden aminorar los pro%lemas, pero !?*> es raramente una solucin clave. ?a arquitectura de%e permitir el soporte a su fuente de datos # requerimientos. >ero una ve" que se ha esta%lecido un sistema !?*>, el soporte al usuario final ser m$nimo.

?os usuarios de estos productos de%en decidir so%re si los datos del procesamiento anal$tico en l$nea, de%er$an almacenarse en %ases de datos multidimensionales especialmente dise7adas o en %ases de datos relacionales. -sto depende de las necesidades de la organi"acin. -n el *ne6o A/5, se indica si un producto almacena datos en %ases de datos relacionales o en una %ase de datos multidimensional 23DD54. /./ SISTE'AS DE IN(OR'ACION ECECUTI0OS ?as herramientas de sistemas de informacin e)ecutivos 2-6ecutive (nformation S#stems / -(S4, proporcionan medios sumamente fciles de usar para consulta # anlisis de la informacin confia%le. 1eneralmente se dise7an para el usuario que necesita conseguir los datos rpidamente, pero quiere utili"ar el menor tiempo posi%le para comprender el uso de la herramienta. 8am%in, permiten a los desarrolladores de sistemas colocar el conte6to del negocio alrededor de informacin diversa. &n uso t$pico de un -(S es facilitar al usuario la recuperacin # anlisis de la mtricas, de performance de la organi"acin. -l precio de esta facilidad de uso es que por lo general e6isten algunas limitaciones so%re las capacidades anal$ticas disponi%les con el sistema de informacin e)ecutivo. *dems, muchas de las herramientas de consultaMreporte # !?*>Mmultidimensional, pueden usarse para desarrollar sistemas de informacin e)ecutivos. -l concepto de sistema de informacin e)ecutivo es simple0 los e)ecutivos no tienen mucho tiempo, ni la ha%ilidad en muchos casos, para efectuar el anlisis de grandes vol:menes de datos. -l -(S presenta vistas de los datos simplificados, altamente consolidados # ma#ormente estticas. Cate*or=as de A$8ientes EISF 1. -l libro electrnico es una versin en l$nea, electrnica, contraparte del papel que muchos e)ecutivos usan en reuniones con el personal. ?as diapositivas electrnicas presentan una visin concreta de una iniciativa organi"acional o qui"s los datos para dar a conocer la situacin actual de un pro#ecto importante. &. -l centro de comando es %sicamente una coleccin de puertos en un amplio con)unto de reportes, el newsgroup recupera desde (nternet # otros materiales que proveen conocimientos en la organi"acin. ?os reportes del centro de comando pueden ser accesados diariamente o con ms frecuencia, si la informacin cam%ia constantemente o slo cuando se garanti"a las e6cepciones. *lgunos productos generan alarmas cuando ocurren las e6cepciones especificadas. ,uando sea apropiado, cada diapositiva del li%ro electrnico o pantalla del centro de comando, de%er$a permitir al e)ecutivo reci%ir informacin adicional si lo desea 2# si est disponi%le4. * diferencia del modelo !?*>, donde el incremento de niveles de informacin se dan a conocer tal como el analista manipula los datos, un e)ecutivo espera una descripcin glo%al. .o de%er$an escudri7ar para o%tener respuestas. >or ello, cuando los e)ecutivos piden ms informacin desde las diapositivas del li%ro electrnico o de las pantallas del centro de comandos, la presentacin de%er$a ser cuidadosamente ela%orada para presentar principalmente informacin adicional amplificada. -l e)ecutivo de%e ser capa" de pasar cada punto para =ms informacin=, sin perder alguna informacin cr$tica. ?os e)ecutivos pueden administrar su propio li%ro electrnico # centro de comandos o los administradores pueden mantener # modificar el -(S de acuerdo a las especificaciones del e)ecutivo. ?os sistemas de informacin e)ecutivos, generalmente tienen una programacin que variar en comple)idad de un producto a otro. ?os pioneros en el mercado de -(S inclu#en ,omshare, creadores del ,ommander -(S # >ilot Software, desarrolladores del >ilot ,ommand ,enter. -n el *ne6o A/,, se inclu#e una relacin de productos # empresas que %rindan herramientas de Sistemas de (nformacin -)ecutivos. /.2 HERRA'IENTAS DATA 'INING Data mining es una categor$a de herramientas de anlisis open/end. -n lugar de hacer preguntas, se toma estas herramientas # se pregunta algo =interesante=, una tendencia o una agrupacin peculiar, por e)emplo. -l proceso de data mining e6trae los conocimientos guardados o informacin predictiva desde el data warehouse sin requerir pedidos o preguntas espec$ficas. ?as herramientas 3ining usan algunas de las tcnicas de computacin ms avan"adas como0

o o o o

redes neurales deteccin de desviacin modelamiento predictivo # programacin gentica

para generar modelos # asociaciones. 3ining es un dato/conducido, no una aplicacin/conducida. -l (ntelligent 3iner de (53 para *(< soporta sofisticadas tcnicas mining, as$ como las funciones de preparacin de los datos para e6traer informacin desde %ases de datos !racle o S#%ase # cargarlos en D5B para mining. ,on su opcin Data 3ine para el motor ;ed 5ric9 'arehouse I.0, ;ed 5ric9 integra la funcionalidad de un data mining # la arquitectura de almacenamiento. !tros e)emplos de herramientas data mining comerciales inclu#en Darwin de 8hin9ing 3achines, herramientas de visuali"acin de datos en 3DD5 de S*S (nstitute, S1( 3ineSet # ocus K Serie de Disuali"acin # *nlisis de (nformation 5uilders. /.3 SISTE'AS DE GESTION DE BASES DE DATOS -stos software proporcionan procesamiento en paralelo #Mo algo fuera de los aspectos ordinarios, que puedan ser especialmente interesantes para la gente de desarrollo de data warehouse # de sistemas de soporte de decisiones. Se inclu#e el *ne6o A/D con una relacin de 5ases de Datos usados para Data 'arehouse. /.@ ELECCION DE HERRA'IENTAS Ga# algunas reglas o%vias a seguir cuando se eligen herramientas de anlisis. ?as herramientas se com%inan seg:n las necesidades de los usuarios finales, capacidad tcnica empresarial # la fuente de datos e6istente. 11 Si se elige un proveedor de depsito que adems ofrece herramientas integradas, pro%a%lemente se ahorrar un tiempo de desarrollo significativo al elegir un con)unto de herramientas compati%les. De otro modo, seleccione un con)unto de herramientas que soporte su fuente de datos original. Sin ese soporte, se de%er$a optar por una solucin !?*> relacional de%ido a que provee una arquitectura a%ierta. &1 Despus que se ha seleccionado un con)unto de herramientas compati%le con su fuente de datos, determine cunto anlisis necesita realmente.

o o o

Si usted simplemente necesita sa%er =cunto= o =cuntos=, ser suficiente una herramienta %sica de consultas # reportes. Si usted requiere un anlisis ms avan"ado que e6plique la causa # los efectos de las ocurrencias # las tendencias, %usque una solucin !?*>. ?as herramientas data mining sofisticadas requieren e6pertos en tcnicas de anlisis de datos # se necesitan para pronsticos avan"ados, clasificacin # creacin del modelo.

/1 ,omo con cualquier tecnolog$a, para el me)or desempe7o de su compa7$a, se puede optar por una solucin :nica o un con)unto de soluciones. Su personal de%e comprender los requerimientos de tecnolog$a, desarrollar soluciones que re:nan esos requerimientos # mantener # me)orar efectivamente los sistemas. ?os softwares de negocio inteligentes son slo herramientas. 8odav$a se necesita gerentes # e)ecutivos que capten los conocimientos derivados # tomen decisiones intuitivamente. -n otras pala%ras, estos softwares requieren todav$a inteligencia comercial propia. -n la siguiente ta%la se definen los parmetros a tener en cuenta para la eleccin de las herramientas adecuadas.

E i<a a Herra$ienta adec"ada

Tipo de Herra$ienta ,onsulta # ;eporte >rocesamiento anal$tico en l$nea 2!?*>4 Sistema de (nformacin -)ecutiva 2S(-4

Pre*"nta 8+sica PJu sucediQ

'ode o de Sa ida ;eportes de ventas mensualesW histrico de inventario Dentas mensuales vs. ,am%ios de precio de los competidores ?i%ros electrnicosW ,entros de comandos

Us"ario t=pico .ecesita data histrica puede tener aptitud tcnica limitada .ecesita ir de una visin esttica de los datos a =slicing and dicing= tcnicamente astuto .ecesita informacin resumida o de alto nivel puede no ser tcnicamente astuto .ecesita e6traer la relacin #

PJu sucedi # por quQ

PJu necesito conocer ahoraQ

Data mining

PJu es interesanteQ PJu podr$a pasarQ

3odelos predictivos

tendencias de la data ininteligi%le tcnicamente astuto.

*ne6o A/* G-;;*3(-.8*S D- ,!.S&?8* C ;->!;8-

PRODUCTO *ccess *ccess+ *ctuate ;eporting S#stem *3(S (nformation Server *pplication S#stem *pproach *;>-11(! *>8user *SM*ccess for 3icrosoft *ccess *SZ [oe a<cessMF00 5rioJuer# 5usiness !%)ects ,lear0 *ccess ,r#stal ;eports, ,r#stal (nfo d.%. -6press Data%oard, Dataread DataDirect -6plorer DataSite D5 >u%lisher D%>ower Decision *nal#"er D-,quer#, D-,decision Discoverer, DiscovererMB000 3icrosoft Sonetics

E'PRESA DISTRIBUIDORA

*ctuate Software ,orporation Gos9#ns 1roup plc (53 ?otus ,orporation 'all Data (nc. (nternational Software 1roup 3artin Spencer Y *ssociates (nformation 3anagement Services 1len%roo9 Software 5rio 8echnolog# 5usiness !%)ects, (nc. Sterling Software Seagate Software ,omputer ,oncepts ,orp. S?> (nfoware (ntersolv .etScheme Solutions, (nc. <ense 8echnolog# (nc. D%/8ech (nc. Decisin 8echnolog# 8ouch 8echnologies, (nc. !racle ,orporation

DS Server, DS 3odeler -as#;eporter -clipse Juer#M;eport -? -nglish 'i"ard -nJuir# -sperant !,&S Si6 FS/;eport reequer# ront Y ,enter for ;eporting, .omad 1J? Gar%or?ight G> (nformation *ccess if\ (mpress, Sql5udd# (mpromptu (nfo*ssistant PRODUCTO (nfo3a9er (nfoJuer# (nfo;eports (nform-nt 'arehouse Des9top (nternet DataSpot inSight (nteractive Juer# (JM!%)ects, (JMSmartServer (ridon >anorama Zineti6 ?*.S*M,lient 3*;Z(SMF00 .irvana !;/;->!;8-; (( !racle ;eports, 5rowser >arado6 >latinum ;eport acilit# >ro5it >roductivit# Series ;eports J5- Dision J3 Juer#!%)ect Juest ;Y; ;eport 'riter ;eport 'riter ;eportoire ;eports

(nterweave Speedware ,orporation ,ornut (nformatique -? Software -nglish 'i"ard >rogress Software Speedware (nformation 5uilders, (nc. our Seasons Software, (nc Dimension Software S#stems 8homson Software >roducts *nd#ne Gar%or Software Gewlett/>ac9ard ?eep 8echnolog#, (nc. !%)ective 8echnologies, (nc. ,ognos ,orporation *s#metri6 E'PRESA DISTRIBUIDORA >owersoft ,orporation >latinum 8echnolog#, (nc. >latinum 8echnolog#, (nc. iserv D8? Data 8echnologies ?td. 'illiams Y >artner .ew 1eneration software (J Software ,orporation 8he 1reat -l9 ,ompan# ?imited Gilco 8echnologies ?*.S* &S* *S Software S#nerg# 8echnologies !utput ;eporting, (nc. !racle ,orporation 5orland >latinum 8echnolog#, (nc S#stem 5uilder michaels, ross Y cole S#sdeco (53 ,rossMX (nternational, (nc. ,entura Software ,orporation ,oncentric Data S#stems ;aima S#nergistic S#stems, (nc. .ine to ive software ,o.

;epor8ool ;eportSmith ;oc9et Shuttle Safari ;eport'riter Sagent Data 3art Solution S*S S#stem Second 'ind Select] S-J&-? Snow ;eport 'riter Spectrum 'riter SJ?>;! *gent SJ; 'or9%ench Star 8rac9er Strateg# 8he ;eporter &nique <8;* &;S* (nfoSuite Diew>oint

Xen Software 5orland ;oc9et Software, (nc. (nteractive Software S#stems Sagent 8echnolog#, (nc. S*S (nstitute *n)u 8echnologies *ttachmate *dvanced S#stems ,oncepts Snow (nternational ,orporation >acific S#stems 1roup 5eacon 'are, (nc. 3(8( ?eep 8echnolog#, (nc. Show,ase ,orporation Sea ,hange S#stems, (nc &nique *S Decision Support (nc. (nformi6

PRODUCTO Diew>oint Diper Dis>roM;eports Disual ,#%erquer# Disual D%ase Disual -6press Disual o6>ro Disual .et Disuali"er Juer#, ,harts Do#ant 'e%5i" 'e%SeJue? 'inJ? <entis

E'PRESA DISTRIBUIDORA Soliton *ssociates 5rann Software Goc9 'are ,#%erscience ,orporation 5orland ,omputer *ssociates (nternational 3icrosoft ,orporation ,.et Svens9a *5 (53 5rossco S#stems ,#%ercom >artners (nfoSpace (nc. Data *ccess ,orporation 1ra#3atter Software ,orporation

*ne6o A/5 G-;;*3(-.8*S D- 5*S- D- D*8!S 3&?8(D(3-.S(!.*?M!?*>

PRODUCTO *cuit# -S *cumate -S *dvance or 'indows *3(S !?*> Server 5rioJuer#

E'PRESA DISTRIBUIDORA *cuit# 3anagement S#stems ?td. Zenan S#stems ,orporation ?ighten, (nc. Gos9#ns 1roup plc 5rio 8echnolog# 3DD5 3DD5 3DD5 3DD5 3DD5

TIPO

5usiness !%)ects ,ommander !?*>, Decision, >rism ,ontrol ,ross8arget ,u%e/(t Dataman Data8rac9er DecisionSuite Delta Solutions Demon for 'indows DSS *gent D#namic,u%e.!,< -ZSM-mpower -ss%ase *nal#sis Server -ss%aseMF00 -6press Server, !%)ects iscal usion C( >lanner 1entia Gelm Golos G#perion !?*> (nfo5eacon (nformer (ntelligent Decision Server (JMDision Zhali6 ?ightship 3atr#6 3DD5 Server 3edia 3etacu%e 3(ZSolution 3(8MF00 PRODUCTO 3S3 3use !?*> !ffice !pen!?*> >a%lo >araScope >ower>la# Star8rieve 8he *nt ,olon# 83MA

5usiness !%)ects, (nc. ,omshare (nc. Z,( ,omputing Dimensional (nsight (,S 1roup S?> (nfoware Silvon Software, (nc. (nformation *dvantage, (nc. 3(S *1 Data ,ommand ?imited 3icroStrateg# Data D#namics, ?td. 3etapra6is, (nc. *r%or Software ,orporation Show,ase ,orporation !racle ?ingo ,omputer Design, (nc. (nformation 5uilders, (nc. 8hin9 S#stems >lanning Sciences ,odewor9s Golistic S#stems G#perion Software >latinum technolog#, (nc. ;eportech (53 (J Software ,orporation ?ongview Solutions, (nc. >ilot Software, (nc. Stone, 8im%er, ;iver S*S Speedware ,orporation (nformi6 3(Z S*3*,, (nc E'PRESA DISTRIBUIDORA 3icronetics Design ,orporation !,,*3 ;esearch ,orp. 1raphitti Software 1m%G (nphase Software ?imited *nd#ne DataDista ,ognos ,orporation SelectStar 1eppetto's 'or9shop ??, *ppli6

;elacional 3DD5 ;elacional 3DD5 3DD5 3DD5 ;elacional ;elacional 3DD5 3DD5 ;elacional ;elacional 3DD5 3DD5 3DD5 3DD5 ;elacional 3DD5 3DD5 3DD5 3DD5 3DD5 3DD5 ;elacional 3DD5M;elacional ;elacional ;elacional ;elacional 3DD5 3DD5 ;elacional 3DD5 ;elacional 3DD5 3DD5 TIPO 3DD5 3DD5 3DD5 ;elacional 3DD5M;elacional ;elacional 3DD5M;elacional ;elacional ;elacional 3DD5

8oto 8rac9 for !?*> Disuali"er >lans for !SMB 'DDBF 3ultidimensional Data 5ase.

*m%it ;esearch ?td. 8rac9 5usiness Solutions (53

3DD5 3DD5 3DD5

*ne6o A/D 5*S-S D- D*8!S &S*D*S >*;* D*8* '*;-G!&SPRODUCTO *da%as D *dvanced >ic9 D5B ast/,ount D53S G!>S 3icrosoft SJ? Server 3odel B0F .onStop SJ? .ucleus Server !n?ine D#namic Server, -6tended >arallel Server !pen(ngres !racle Server ;d% ;ed 5ric9 'arehouse S*S S#stem S#%ase (J S#%ase SJ? Server, SJ? Server 3>> S#mfo'*;8eradata D5S 8G!; 8ime 3achine 8itanium &nidata &niDerse Dision '<9000 <D5 Server E'PRESA DISTRIBUIDORA Software *1 >ic9 S#stems (53 3ega>le6 Software G!>S (nternational 3icrosoft ,omputer ,orporation of *merica 8andem Sand 8echnolog# S#stems (nformi6 ,omputer *ssociates !racle !racle ;ed 5ric9 S#stems S*S S#%ase S#%ase u)itsu .,; Gitachi Data 3anagement 8echnologies, (nc. 3icro Data 5ase S#stems, (nc. &nidata, (nc. D3*;Z (nnovative S#stems 8echniques, (nc. 'hite ,ross S#stems (nc. <D5 S#stems, (nc.

También podría gustarte