Documentos de Académico
Documentos de Profesional
Documentos de Cultura
RESUMEN
Los Spatial Data Warehouse, son una gran base de datos por decirlo de una manera
sencilla, que habilita espacial e históricamente la información del negocio, desde una
perspectiva holística orientada a las áreas del negocio no a las aplicaciones transaccionales
del día a día, para servir de sustento en la toma de decisiones; el Spatial Data Warehouse
puede almacenar básicamente el contexto espacial del dato desde dos perspectivas muy
diferentes, la primera es la manipulación del mismo como un dato agregado y la segunda
como una variable principal de acceso y análisis de la bodega; dependiendo la connotación
se define el modelo de la bodega, para el primer caso se puede definir un modelo
multidimensional puro, pero para el segundo es imprescindible utilizar un modelo híbrido
entre un modelo multidimensio nal y uno objeto relacional, debido a que la manipulación de
la geografía del dato se debe desarrollar en el marco de la tecnología orienta a objetos, para
no tener limitantes en los análisis tradicionales de la bodega; El Spatial Data Warehouse no
es sola mente la bodega en si, si no todo el conjunto de herramientas y procedimientos desde
el poblado de la misma a partir de los sistemas transaccionales actuales, la transformación y
estandarización de todos lo datos, la fijación del valor temporal del dato, la habilitación
espacial de los mismos, asi como toda la infraestructura para consulta, el análisis en línea y
el análisis detallado de tendencias por técnicas de minería de datos, que se desarrollan
sobre la bodega para poder tomar las decisiones pertinentes del negocio. La construcción de
una metodología no se simplifica a la consecución de tareas y procesos de lo que se debe
hacer, si no el marco conceptual de la implicación de este tipo de proyectos para que sean
un completo éxito, ya que la idea es dar los lineamientos fundamentales para que la
metodología se desarrollo basado en el negocio mismo no en una receta de cocina,
recordemos que el 50% de proyectos Data Warehouse en el mundo han sido un completo
fracaso por esta y otras causas; y si le sumamos la falta de cultura cartográfica en el
negocio, será el fracaso de los proyectos Spatial Data Warehouse.
3
1. INTRODUCCIÓN
Los sistemas de bases de datos han significado y representado una gran herramienta en la
administración y gerencia de la información, han evolucionado a tal punto que han dejado
de ser unos simples reservorios y repositorios de datos alfanuméricos estáticos para
convertirse en la estructura ideal para almacenar cualquier tipo abstracto de dato que
tecnológicamente se pueda automatizar y digitalizar, ya sea de manera estática, dinámica o
inteligente.
Orientado a Integrada
ica
temas ráf
og
Ge
Variante en No Volatil
El tiempo
Fig. No.1
Esquema de definición del Spatial Data Warehouse
Fig., No. 2
Ámbito operacional del Data Warehouse
1
Barry Devlin, “Data Warehouse from Architecture to Implementation”
5
Simplemente puede ser una gran base de datos que sostiene copias o agregaciones de datos
desde otros sistemas y que poseen alta disponibilidad para ser usadas por otras aplicaciones.
Los datos son categorizados y almacenados por temas del negocio y no por aplicación, es
decir que la información es organizada, almacenada, y analizada por áreas temá ticas y no
análisis específicos que resumen o colectan información especifica de distintos segmentos
del negocio para cumplir con un fin único y especifico, consolidado en una aplicación
estática; por cada tema del negocio se puede mirar un abstrac de los datos que permitan
concluir en un intervalo de tiempo para ciertas variables cual es el comportamiento global
del negocio.
En una aplicación la información en la base de datos se tiene organizada de tal manera que
se pueda extraer de forma directa, es decir que por aplicaciones se diseñan e implementan
bases de datos, a diferencia en un Data Warehouse, donde se tiene una sola base de datos
diseñada, estructurada y organizada por áreas temáticas, independiente a las diferentes
aplicaciones que necesiten extraer información de la misma; la ventaja de tener base de
datos por aplicación radica en la alta accesibilidad a los datos, lo que implica un alto
desempeño y velocidad en los análisis ya que los mismos ya están preestablecidos, mientras
que en el Data Warehouse para satisfacer con esta ventaja se requiere que la información
este desnormalizada, es decir con redundancia, duplicidad de los datos y que la información
este dimensionada para evitar que el motor de consultas tenga que recorrer toda la base de
datos para encontrar lo que necesita, si no que simplemente la consulta sea enfocada por
vectores o variables que permitan localizar los datos de manera rápida y eficaz, para
satisfacer una alta demanda de análisis complejos en un mínimo tiempo de respuesta.
2
Rob Mattison, “Data Warehousing Strategies, Technologies , and Techniques”
6
2.1.2. INTEGRADO
Los datos son almacenados una sola vez de acuerdo al área temática a la que pertenecen,
como en el ámbito del Data Warehouse no se realiza el diseño de acuerdo a las aplicaciones
si no a las áreas del negocio, los datos son integrados y estructurados como un solo ente en
la organización; manipular la información de esta manera nos permite garantizar un juego
de información estándar, consistente, exacto, consolidado, y confiable para todas las
aplicaciones, procesos y análisis del negocio.
La integración implica que todos los datos de diversos sistemas transaccionales (OLPT),
que son producidos por distintas secciones y distintas aplicaciones, deben ser unidos en una
instancia antes de ser agregados al Data Warehouse, este proceso se conoce como el
Proceso de Extracción, Transformación y Transporte de los datos.
Una de las principales ventajas del Data Warehouse, es que los datos son almacenados con
sus respectivos históricos, lo que garantiza poder desarrollar análisis de la dinámica de los
mismos, pues ellos son almacenados como una serie de instantáneas, cada uno
representando un periodo de tiempo; es importante tener en cuenta la granularidad de los
datos, así como la dinámica de cambio natural del comportamiento de los fenómenos del
negocio para evitar crecimientos incontrolables y desbordamientos de la base de datos, el
intervalo de tiempo y periodicidad de los datos se define de acuerdo a las necesidad y
requerimientos de los usuarios confrontados con la realidad de las fuentes de los datos, por
ejemplo los usuarios desean saber el margen de venta de cada quince minutos del mes
pasado, pero los totales de venta se desarrollan diarios. Toda la información en el Data
Warehouse posee su propio sello de tiempo.
de información, ya que las instantáneas son refrescadas de acuerdo con las actividades del
negocio.
Fig. No. 3
Sello de tiempo del Data Warehouse
2.1.4. NO VOLATIL
Típicamente los datos del Data Warehouse no son actualizados desde los sistemas
operacionales, los nuevos datos son insertados como nuevos registros, en ningún momento
se sobrescriben los existentes, las manipulaciones de los datos se simplifican a un cargue
masivo inicial de todos los datos base, inserción de los cambios y nuevos datos, de acuerdo
al ciclo de refresque, y acceso de los datos por los usuarios para análisis; en un Data
Warehouse no hay borrado, ni actualización de registros, solamente consulta e inserción.
Fig. No. 4
Esquema de operaciones DML en el DWH
8
Un modelo de datos Geográfico es una abstracción del mundo real que emplea un conjunto
de objetos dato, para soportar el despliegue de mapas, consulta, edición y análisis. Los
datos Geográficos, presentan la información en representaciones subjetivas a través de
mapas y símbolos, que representan la geografía como formas geométricas, redes,
superficies, ubicaciones e imágenes, a los cuales se les asignan sus respectivos atributos
que los definen y describen.
El Spatial Data Warehouse, no es mas que un Data Warehouse con componente geográfica,
no como un dato agregado, sino como una dimensión o variable en la tecnología de la
información, de tal manera que permita modelar todo el negocio como un ente holístico, y
que a través de herramientas de procesamiento analítico en línea (OLAP), no solamente se
posea un alto desempeño en consultas multidimensionales si no que adicionalmente se
puedan visualizar y analizar espacialmente los resultados.
Los Spatial Data Warehouse, son aplicaciones basadas en un alto desempeño de las bases
de datos, que utilizan arquitecturas cliente / servidor para integrar diversos datos en tiempo
real, mientras los Data Warehouse trabajan con muchos tipos y dimensiones de datos,
9
La implementación de los diferentes Spatial Data Warehouse varia, basados en primer lugar
en las herramientas que se utilizan y seguido de los modelos que se empleen, el diseño y
fundamentos permanecen constantes, a nivel de implementación la única consideración a
nivel de software y hardware que se debe tener en cuenta es que este tipo de proyectos
demandan grandes recursos operativos y administrativos, tales como grandes y robustos
manejadores de bases de datos (DBMS), como Oracle, DB2, SQL Server, Informix o
Sysbase, con un conjunto de herramientas auxiliares en algunos casos complejas, y de
igual manera herramientas profesionales de SIG, como ArcSDE, ArcInfo entre otras; y sin
olvidar una gran infraestructura de hardware; pero como mencionábamos en cualquier
proyecto informatico la conceptualización y el diseño son independientes a la
implementación, considerando un esquema general del diseño proyecto la figura 14.
10
Metodologia
Diseño y Modelamiento
Sin importar lo diferente o complejo que sea el proyecto Spatial Data Warehouse los
siguientes pasos se ma ntienen en el diseño:
• Implementación de Metodologías.
• Consideraciones de diseño y modelamiento.
• Georeferenciación y geocodificación de la información espacializable.
• Desarrollo de procesos y aplicaciones para el accesos y análisis de los datos.
• Consideraciones de Administración, seguridad y afinamiento de los datos.
• Estandarización y automatización de los procesos de extracción, transformación y
transporte de los datos (ETT).
El pilar del proyecto de Spatial Data Warehouse esta en la metodología a seguir, pues ella
asegura el éxito o el fracaso del proyecto, al diseñar la metodología a utilizar se debe
garantizar que sea de desarrollo incremental, es decir que permita crecer con nuestras
nuevas expectativas y que cumpla cabalmente con los alcances trazados para el proyecto, y
lo mas importante que sea segura y confiable; la metodología que se va a postular en este
documento es un híbrido entre las metodologías de Data Warehouse tradicionales y las
metodologías de proyectos de Sistemas de Información Geográfica, en un marco objeto
relacional. Un agente que toma importancia en el proyecto SDWH, es la manera como
desarrollemos el modelamiento, lo que tradicionalmente conocemos en proyectos SIG,
como la etapa de la conceptualización; todos aquellos análisis de requerimientos y
expectativas a cubrir a lo largo del proyecto; la determinación de estructuras operativas,
11
El proyecto puede iniciar con la empresa, pero esto muy raras veces ocurre, porque cuando
una empresa u organización, se inicia en el negocio muy pocas veces nace moderadamente
mediana o grande, lo cual no justifica la inversión en proyectos de esta índole, en la
mayoría de situaciones la empresa a la cual nos enfrentamos tiene información ya
preestablecida y una infraestructura plenamente definida; lo cual implica una definición
para desarrollar toda una tarea para evaluar los procesos actuales de producción y
manipulación de los datos, revisar las bases de datos transaccionales y todos los procesos
transaccionales en línea, no es recomendable imponer nuevos procesos que modifiquen
significativamente las condiciones actuales de producción del negocio, ya que causan
indisposiciones en el personal activo de la empresa, y algo a tener muy en cuenta en los
proyectos Spatial Data Warehouse es la completa colaboración y disposición de las
personas involucradas directa e indirectamente en el proyecto para que este sea un éxito;
otra causa es que la compañía no puede dejar de producir o esperar a que el proyecto este
funcionando para seguir operando, lo que implica que su desarrollo es paralelo a toda la
organización del negocio; en síntesis el procedimiento a seguir una vez se tenga todo el
diseño y modelamiento listo, es construir todo un proceso de extracción de datos de las
bases de datos transaccionales, de las fuentes y destinos mismos, desarrollar su respectiva
validación, estandarización, limpieza, integración y lo mas importante ponerle su sello de
tiempo, todo esto en un proceso de transformación; y finalmente transportarlo hasta la
bodega transitoria de almacenamiento, solamente la información que no posea o deba tener
componente geográfica puede pasar directamente a la bodega de datos definitivos,
seguidamente se debe desarrollar todo un proceso de evaluación de la información de la
bodega transitoria dentro de un contexto geográfico; dentro del Spatial Data Warehouse la
12
información geográfica puede tener dos connotaciones muy distintas, la primera es ser un
dato agregado o de referencia, es decir que durante todo los procesos y operaciones de la
empresa es estático, por ejemplo la sectorización local de una ciudad (localidad, sector,
barrio), sabemos que su dinámica de cambio es mínima, y en algunos casos no depende de
nosotros; la segunda es que sea una variable o un dato producido en los procesos del
negocio, y que su dinámica de cambio dependa de la dinámica del negocio, por ejemplo la
distribución domiciliaria diaria de nuestros productos, la traza sísmica elaborada durante el
mes para prospección geofísica, etc. La tarea de este punto en consideración consiste en
georeferenciar y geocodificar la información mapificable, para lo cual nos ayudamos de
cartografía digital base, y de herramientas tipo SIG, es decir que manipulen y estructuren la
información topologicamente; si la información existe en nuestra división de sistemas, la
tarea consistirá en procesarla como un dato normal, es decir sufre un proceso ETT normal,
si no existe habrá que construirla o adquirirla, y disponer de toda una nueva infraestructura
en este campo para mantenerla, procesarla y analizarla. Todos estos procedimientos no son
iniciales, se presentan y desarrollan durante todo el ciclo de vida del Spatial Data
Warehouse, y se presentan de acuerdo al ciclo de refresque de la bodega, por ello es debido
desarrollar aplicaciones y procesos en lotes para automa tizar todas estas tareas y que sean
ejecutadas periódicamente o programados en una agenda digital computacional. Todos los
procesos y en especial el ETT, debe estar acompañado de una administración responsable,
robusta y en un ambiente seguro para evitar corrupción o violación en los datos, ya que son
la materia prima y mas valiosa de nuestra bodega, el ambiente de seguridad y
administración debe existir del lado de alimentación de la bodega como del lado de
usuarios y accesos a la misma.
13
Ambiente de la
Bodega
BD OLTP
010101010101010101
010101010101010101
010101010101010101
010101010101010101
Base de Datos
Archivos Planos Integradora
(bodega
transitoria) Spatial Data
Warehouse
Cartografia Existente
Plataforma de
Producción Fig. No. 8
Proceso de Extracción, Transformación y Transporte de los datos para alimentar la bodega.
negocio por áreas, sino la esencia es servir de base para la inferencia y construcción de
información que sustente la toma de decisiones; en la mayoría de textos tradicionales de
bases de datos el termino dato es permutable y equivalente al termino información, pero la
diferencia es sencilla, pongamos dos ejemplos que permiten definir y diseminar claramente
los dos términos, primero se realiza una consulta al repositorio de datos ¿ Cuanto vendí la
semana pasada y en donde?; y la segunda ¿Qué combinación de productos se vendieron
mejor la semana pasada y como están segmentados a lo largo de la ciudad ?, la diferencia es
clara en el primer caso es una simple consulta a un dato en la bodega, y la segunda extrae
información de la misma, combinando en línea distintas variables que determinan el
comportamiento del negocio, mas adelante hablaremos en detalle de este tipo de consultas
que son extraídas con herramientas de procesamiento analítico en línea (OLAP). Una vez
claro los conceptos información y dato, se necesitan un conjunto de herramientas como ya
mencionamos que permitan la extracción de información y la construcción de reportes a
partir de los datos en la bodega, estas herramientas deben ser fáciles de usar, intuitivas,
deben permitir que los usuarios naveguen libremente de lo general a lo particular en los
datos, así como permitir documentar los mismos y de fácil capacitación para uso masivo,
pero recordemos siempre en un ámbito de seguridad y administración estable; se debe
establecer previo a la implementación las dimensiones de los alcances de los
requerimientos de los usuarios, ya sea para adquirir las herramientas que cumplan
cabalmente con los requisitos, construirlas, o simplemente personalizar las adquiridas o
existentes, adicionalmente se debe tener en cuenta que la bodega de datos no es cualquier
base de datos, que su tamaño en muy superior, que la estructura de los datos no es común, y
que la información geográfica no es tabular y que por ende requerimos herramientas tipo
SIG, para que consulten la bodega, visualicen, manipulen y analicen los datos espaciales en
un ambiente topológico, y en esquema cliente / servidor, como lo es el Spatial Data
Warehouse, donde el servidor central mantiene los datos, la administración y la seguridad,
el cliente inicia una transacción con el, realiza una petición de los datos, y una vez el
servidor haya autorizado la transacción y respondido la petición el cliente los analice,
interprete y procese.
15
Ambiente Ambiente de la
operacional de la Bodega
Ambiente de la
Empresa
Bodega
BD OLTP
010101010101010101
010101010101010101
010101010101010101
010101010101010101
Base de Datos
Archivos Planos Integradora
(bodega
transitoria) Spatial Data
Warehouse
Cartografia Existente
Plataforma de
Usuarios
Producción Plataforma de
Simples Previsivas OLAP
Producción
Consultas
Fig. No. 9
Esquema General de alimentación y consultas del Spatial Data Warehouse
Este tipo de proyectos, son costosos porque no solamente se cuantifica recursos logísticos,
operativos, desarrollos y adquisición de herramientas especializadas; también se necesita
una correcta infraestructura que cumpla con lo idealizado, los recursos que consume el
Spatial Data Warehouse no solamente son de software, un gran recurso es dedicado al
hardware; el calculo de los volúmenes de datos y su crecimiento debe desarrollarse con
calma y lo mas acertado posible, para prever costos, así como para desarrollar los
afinamientos requeridos, para que el sistema no sufra saturaciones ni caídas, si las
respuestas del servidor a las peticiones de los usuarios son lentas, nadie lo a terminar
usando o va a ser un dolor de cabeza para el administrador de la bodega, preveer todo esto
para la configuración del servidor, hoy en día existen muchas tecnologías para suplir estas
necesidades, como paralelismo, arreglos de disco, indexamiento, tablas particiónadas, etc.
De ello depende el optimo desempeño y disponibilidad del sistema.
16
Vamos a entrar mas en detalle en todas los componentes que hacen parte del Spatial Data
Warehouse, hasta el momento el esquema se ha simplificado a mirarlo desde dos
perspectivas muy sencillas, la primera del lado de la alimentación y la segunda del lado de
las consultas de la bodega. En un Spatial Data Warehouse, cuando nuestras fuentes de datos
son muy variadas y requieren de muchos tratamientos es recomendable definir toda una
infraestructura para nuestra base de datos integradora, a la cual desde ahora vamos a
denominar Almacén de Datos Operacionales (Operational Data Store ODS), pero porque
hasta ahora esa denominación?, o es que el ODS y la base de datos transitoria es lo mismo?,
son dos preguntas que nos podemos cuestionar; el ODS es mas que una base de datos
transitoria donde simplemente, limpiamos, unificamos, integramos, y organizamos datos;
simplemente esto es lo que se desarrollaría en una base de datos transitoria, adicionalmente
la tareas de los ODS, es estructurar y soportar todos los datos de análisis, organizar los
datos por áreas para la bodega, realizar las sumarizaciones de los datos, pero porque
sumarizaciones?, si en las consultas se pueden desarrollar?, en la bodega se debe
preestablecer los totales mas requeridos y de igual manera los mas complejos y pesados,
debido a que en primera instancia algunos implican un predicado muy complejo, lo cual no
es operable para los usuarios finales, de tal manera que se debe esconder toda la
complejidad en las consultas, que simplemente sea ingeniería del mouse; en segunda
instancia las sumas para obtener totales consumen mucho recurso del servidor (SGA, PGA)
de tal manera que satura el servidor, el desempeño y velocidad se ven sacrificados, por ello
a nivel del ODS, se deben prever que sumarizaciones deben estar desarrolladas; de igual
manera en el ODS se dimensionan los datos geográficos y se desarrollan los análisis
preliminares que el cliente no debe hacer con respecto a la espacialidad del dato, tales como
cruces topológicos y relaciones complejas y de igual manera las sumarizaciones debe
quedar en la bodega disponibles para los mismos; los ODS pueden estar sincronizados con
los sistemas OLTP, y por ende se pueden desarrollar sobre el mismo análisis en tiempo
real, que no impliquen grandes dimensiones en el tiempo, ya que la finalidad del ODS, no
17
ODS
OLTP
Analistas del
Negocio
encadenadores entre la bodega y el Data Mart, se crean instantáneas de los datos y se les
asigna un tiempo de refresque o sincrónicamente con la bodega.
ODS
OLTP
SDWH
Los Data Mart pueden ser de dos tipos de acuerdo a la operaciones que se desee desarrollar
con los mismos, los primeros son los dependientes que son los que hemos venido
describiendo, son segmentos parciales de la bodega, son construidos y cargados a partir de
la misma, y los Data Mart independientes, los cuales son construidos e implementados a
partir de los procesos ETT, o de los ODS directamente, estos últimos son implementados en
algunos casos sin existir la bodega, se desarrolla así por cuestión de costos y porque el Data
Mart posee todas las características mencionadas de la bodega, en algunos casos se
desarrollan los proyectos Spatial Data Warehouse construyendo una serie de Data Mart por
departamentos con costos increméntales diferidos, una vez se han construido todos los Data
Mart se procede a implementar la bodega; cuando los datos geográficos son demasiados
complejos es recomendable diseñar Data Mart específicamente para manipular estos datos,
siendo los mismos dependientes preferiblemente, pero si los datos geográficos son estáticos
19
OLTP SDWH
OLTP
OLTP SDWH
La componente mas poderosa de los Spatial Data Warehouse, heredada de los Data
Warehouse, el procesamiento analítico en línea OLAP, es el motor de consultas
especializadas de la bodega, las herramientas OLAP son una tecnología de software para
análisis en línea, administración y ejecución de consultas complejas que permitan inferir
información del comportamiento del negocio, las herramientas OLAP son implementadas
en arquitecturas cliente servidor y su finalidad es brindar rápidas respuestas a múltiples
consultas, la fortaleza de los OLAP es poder brindar escenarios históricos de cómo se a
venido comportando el negocio en un ambiente multidimensional, es decir combinando
múltiples variables simultáneamente, desarrollando su análisis desde diferentes
perspectivas que aparentemente no se relacionen para poder inferir tendencias que a simple
vista no se encontrarían fácilmente; las herramientas OLAP requieren que los datos estén
organizados dentro de la bodega de forma multidimensional, lo que implica el
modelamiento basado en los principios de las bases de datos multidimensionales o
emulaciones de la misma; una base de datos multidimensional es aquella que organizan los
datos por dimensiones por ejemplo el producto x se vende en t tiempo, en s lugares, la base
de datos estructura para este caso tres dimensiones x, t, s formando un cubo donde el cruce
de los valores x, t, s a lo largo de las abscisas determinan el valor del dato, el hecho de que
ocurrió una venta, lo que implica que los mismos son extraídos y representados por
dimensiones de cualquier orden y multiplicidad, los cálculos sobre la misma son matriciales
los cuales se procesan rápidamente dando como resultados reportes tabulares; las bases de
datos multidimensionales implican un modelamiento estrella, copo de nieve, o constelación
los cuales explicaremos mas en detalle posteriormente, los cuales pueden ser
implementados de manera relacional, multidimensional o un híbrido entre los dos,
dependiendo toma la denominación de ROLAP (relacional), MOLAP (multidimensional) o
HOLAP (híbrido); independiente a la arquitectura este tipo de modelamientos requieren
que todo el modelo este desnormalizado o semi desnormalizado para efecto de no
desarrollar complejas uniones para acceder a los datos, ocultar y agilizar la complejidad de
las consultas, en el caso de que los datos espaciales no sean datos agregados si no
dimensiones de la información es imprescindible desarrollar modelos híbridos, empleando
geo_objetos dentro de un contexto objeto_relacional híbrido con el multidimensional
21
OLTP SDWH
OLTP SDWH
Las bases de datos multidimensionales (tecnología OLAP), proveen una estructura de datos
que permite un flexible acceso a los datos, y explorar las relaciones entre la sumatoria y el
detalle del dato. Usted puede visualizar el modelo multidimensional como por ejemplo un
cubo en donde las variables asociadas con valores existen a lo largo de los tres ejes, en
algunos casos son mas de tres dimensiones, el poder de este modelo radica en el alto grado
22
de análisis para combinar en línea las diferentes variables para extraer información, el
diseño del mismo se puede desarrollar a partir de un modelo relacional desarrollando las
respectivas transformaciones, o de manera inmediata al dimensional, la estructura del
mismo radica en dimensiones que son definidas por el usuario las cuales son variables de
acceso a los datos o simplemente son los mecanismos para disgregar las medidas de la
organización; y una tabla de hechos que plasma la ocurrencia de una acción a lo largo de
las dimensiones, los hechos son el corazón del Spatial Data Warehouse, se compone de
todas las llaves de las dimensiones indicando la existencia de un dato definido por las
dimensiones, los resultados de los análisis son representados por cruces de matrices de
acuerdo a las dimensiones accedidas.
n
ció
ica
Ub
Tiempo
Producto
Fig. No. 17
Base de datos multidimensional
Otra componente de los Spatial Data Warehouse es la ingeniería del dato (Data Mining), la
cual es la herramienta que permite inferir comportamientos, modelos, relaciones y
estimaciones de los datos, para poder desarrollar predicciones de los mismos, sin prescindir
de algún patrón o regla preestablecida o conocida, el Data Mining básicamente es una
técnica de descubrir patrones y relaciones entre los datos que a simple vista no se puedan
inferir, las consultas de Data Mining pueden tardar de minutos a horas dependiendo el
23
El tamaño de la bodega puede ser de personal a muy grande, dependiendo del negocio y del
volumen de los datos; se considera que si es menor a un giga byte es personal, entre uno y
cincuenta giga bytes pequeño, entre cincuenta y cien giga bytes mediano, grande entre cien
giga bytes y un tera byte, y muy grande mayor a un tera byte, teniendo en cuenta estos
tamaños es recomendable desarrollar el diseño y estado de las componentes a utilizar en la
bodega, al igual que el recurso físico, tiempo y costos de implementación.
Ambiente Ambiente de la
operacional de la Bodega
Empresa Spatial Data
Warehouse
BD OLTP
010101010101010101
010101010101010101
010101010101010101
010101010101010101
ODS
Archivos Planos
Cartografia Existente
Plataforma de
Producción Data Marts
Datos de Data OLAP
Análsis Mining Fig. No. 18
Esquema global del Spatial Data Warehouse
24
Para sintetizar los datos que vamos a encontrar dentro de la bodega van a estar organizados
y categorizados en:
• Dimensiones
• Hechos
• Datos de referencia
• Datos Agregados
• Metadatos.
Los hechos comprenden el volumen de la bodega, y pueden estar compuesto por millones
de registros dependiendo la granularidad de los datos y los intervalos de tiempo de los
mismos; recordemos que los hechos son accedidos por las dimensiones, un hecho es un
dato instantáneo en el tiempo bajo condiciones definidas por las dimensiones por ejemplo
una venta es un hecho, pero la venta corresponde a un producto, en una hora dada, en un
día dado, en un lugar, costo y cliente especifico; este caso las dimensiones son tiempo,
ubicación, producto y cliente, el costo es un dato agregado al hecho de la venta no una
dimensión el cual depende del producto; es decir que el hecho es una instantánea de las
bases de datos OLTP; los registros de los hechos siempre son insertados, jamás
actualizados y el ciclo de refresque depende de la resolución temporal de los datos.
El registro del hecho posee una llave primaria compuesta que esta definida por las llaves
primarias no naturales de las dimensiones; refiriéndose a llaves primarias no naturales a
llaves plásticas o secuenciales inherentes al sistema y no al usuario, para facilitar la
construcción de índices de manera compensada bajo algoritmos de hatching. En la bodega
se pueden tener mas de una tabla de hechos, en caso de que a nivel de diseño se defina una
sola tabla de hechos se conoce como modelo estrella, si existen mas tablas de dimensiones
pero derivadas o segregadas a las dimensiones principales se conoce como modelo copo de
nieve, o si existen mas tablas de hechos estas agregadas se conoce como modelo
constelación, los datos de las tablas de hechos pueden ser aditivos si suman sobre todas las
dimensiones, semi-aditivos si suman a lo largo de algunas dimensiones y no aditivos
cuando no pueden sumarse a lo largo de ninguna dimensión. El diseño del modelo es una
25
tarea meticulosa y de cuidado si por algún caso obviamos una dimensión, y la deseamos
agregar posteriormente y ya existe una implementación en la bodega es mejor abstenerse de
hacerlo o rehacer todo el proyecto, ya que la tabla de hechos quedaría con vacíos e
inconsistencias.
Dimensiones
Dimensiones
Cliente_ID
Producto_ID
Unidades
Ventas
Precio
Dimension Cliente Dimension Producto
Costo
Cliente _ID Producto _ID
Margen
Cuenta _ID Item _ID
Envio _ID Familia _ID
Segmento _ID Clase _ID
Fig. No. 19
Modelo estrella
Las dimensiones de los datos califican y manejan las consultas y restricciones del usuario,
generalmente las dimensiones son las áreas temáticas de interés del negocio, o
determinadas a partir de las mismas, por ejemplo en área de clientes, puntos de venta,
centro de producción, etc. Las cuales actúan para un único fin, por ejemplo una venta, por
tal motivo la definición de dimensiones implica un diseño imperativo, debido a que la
intersección de las mismas es la que permite localizar los datos en la tabla de hechos, las
relaciones se desarrollan a partir de las llaves primarias, recordemos que la llave primaria
de la tabla de hechos está formada por la concatenación de las llaves primarias de las
dimensiones, las tablas de las dimensiones se componen de datos textuales, son de
pequeñas magnitudes, sus valores son discretos y desnormalizados, los cambios deben ser
26
• Los Metadatos de los procesos ETT, referentes al modelo lógico y físico, de las
fuentes de datos de las bases de datos operacionales, estos contienen las reglas de
extracción, depuración y traslado de los datos a la bodega.
• Metadatos para usuarios finales que les permitan navegar por los datos y sirvan de
documentación para las herramientas de análisis que se empleen.
• Metadatos operacionales, los cuales contienen los relatos de las diferentes tareas de
cargue, y procesos de acceso, este metadato es usado para fijar y desempeñar
análisis sobre las condiciones de la bodega.
• Metadatos geográficos, son los encargados de documentar todos los geo objetos,
para poder desarrollar las diferentes operaciones y manipulaciones de los mismos,
no solo a nivel operacional si no de usuario final, es un híbrido de los tres tipos de
Metadatos anteriores, pero en un contexto geográfico.
Modelo Conceptual
Sistemas Bodega
Operacionales Fig. No. 20
Modelamiento de Datos
28
Los modelos son una representación lógica de cómo los datos aparecen físicamente en los
diferentes niveles de la base de datos. Estos son análogos a los planes que se deben seguir
para las nuevas construcciones que definen el tamaño, elementos, y apariencia de la
construcción, ya sea de una base de datos o un SIG, Categóricamente los modelos mas
consecuentes y estándares que encontramos en el modelamiento de datos son:
Cuando se inicia el proceso de modelamiento de los datos para el Spatial Data Warehouse,
un buen punto de partida es el modelo empresarial; como ya habíamos mencionado el
proyecto de la bodega puede iniciarse con el negocio, caso en el cual la premisa anterior no
estaría fundamentada, pero recordemos que en la mayoría de situaciones el negocio ya esta
consolidado con una producción y un sistema transaccional operando, bajo estas
circunstancias la consideración en mención tiene validez, de tal manera que el modelo
empresarial es un buen esquema para mapear los diferentes datos que se manejan
actualmente, por ende se puede determinar enfocadamente las necesidades del negocio, las
reglas que rigen los procesos y lo mas importante medir los alcances, granularidad,
temporalidad y tiempos de refresque de la bodega, a si como determinar las falencias y
redundancias de información, nos permite unificar los distintos modelos de datos en las
diferentes áreas del negocio, consolidando lo que en muchos organizaciones se maneja en
el departamento de SIG, lo que se maneja en el departamento de sistemas divididos, entre
otros, todo enmarcado en la situación actual de la empresa.
El desarrollo del modelamiento es interactivo y retroalimenticio, un buen modelamiento no
nos garantiza el éxito de la bodega, pero de lo contrario si garantizamos el fracaso de la
misma, Oracle corporation, postula unos pasos para desarrollar el modelamiento de datos
para un Data Warehouse, siendo este uno de los procedimientos mas aceptados en el
mundo; y considerando que los datos geográficos son un tipo abstracto de dato mas en el
modelamiento, estos procedimientos aplican con ciertas consideraciones especiales al
Spatial Data Warehouse, por cada área objeto del estudio, usted normalmente puede llevar
a cabo estos pasos a través de un desarrollo interactivo:
4. Estime los costos del proyecto, determine los especialistas y los recursos requeridos.
5. Evalué y seleccione las herramientas a utilizar, provea de herramientas tipo SIG, y
tecnologías de controles que permitan SIG embebido.
6. Diseñe el plan y costo del proyecto, obtenga consolidados y recursos.
7. Identifique y analice las áreas objeto del escenario del negocio propuesto.
8. Recopile los requerimientos de datos e información para los usuarios, reglas del
negocio, y reportes.
9. Desarrolle el modelo lógico.
10. Mapee las entidades, atributos y relaciones desde el modelo operaciona l
normalizado si este existe, por otra parte mapee el modelo de la bodega desde las
fuentes de datos.
11. Desarrolle un proceso de re- ingeniería especifica al sistema de las fuentes de los
datos, este paso permite que los procesos contenciosos en la implementación de la
bodega sean manipulables, para evitar cargues adicionales de los recursos del
negocio.
12. Diseñe la base de datos alrededor de la tecnología, relacional, objeto relacional o
multidimensional, teniendo en cuenta que para bodegas espaciales lo recomendable
es un híbrido entre la objeto relacional y la multidimensional.
13. Realice pruebas de los conceptos de tal manera que se puedan verificar y reparar,
involucrando a los usuarios y equipos técnicos como:
- Encargados del modelo de la arquitectura del repositorio de la bodega de datos
espaciales.
- Encargados de crear todos los procedimientos y rutinas ETT.
- Encargados de crear y actualizar Metadatos.
- Especialistas en sistemas de información geográfica.
14. Maneje las expectativas de los usuarios y alcances que se han adquirido como
compromiso.
31
Una vez a desarrollado todos estos procesos, se debe determinar e identificar todas
las tareas, colocando especial atención en las repetitivas, para su respectiva
automatización; definiendo y asignando consistentemente los miembros del grupo
que van a desarrollar las tareas de acuerdo a su desempeño; a si mismo determinar
medios para medir la calidad e integridad de las tareas, y definir la dirección y
coordinación de las mismas. Algunas de las tareas mas importantes y generales que
se van a encontrar en cualquier proyecto recordemos que son:
- Adquisición y transformación de los datos desde los sistemas fuentes.
- Habilitación espacial de la información.
- Definición y acceso de los Metadatos.
- Creación del diseño técnico de la bodega.
- Proveer un acceso fácil y eficiente de los datos.
- Definir una estrategia de la calidad de los datos.
- Habilitando las herramientas de usuario final o front end.
Cliente_ID
Producto_ID
Unidades
Ventas
Como ya hemos visto la tabla central es la tabla de hechos, y radiando encontramos las
tablas de dimensiones, y notamos que el modelo esta desnormalizado, y encontramos
operaciones dentro de los hechos como el margen, entrando este como dato agregado. Las
ventajas de este modelo es que es fácil de entender y responder a las consultas de los
usuarios, optimizando y reduciendo el numero físico de uniones requeridas entre los hechos
y las dimensiones, basta con definir valores para las dimensiones y encontrar el hecho
correspondiente, de igual manera los Metadatos en este modelo son fáciles de documentar y
mantener, soportado por casi todas las herramientas de usuario final, sin embargo es el
menos robusto para el cargue y es el mas lento de construir por el nivel de
desnormalización, y este no es fácil de usar si usted necesita el mantenimiento histórico de
los datos.
Cliente_ID
Producto_ID
Unidades
Ventas
Precio
Costo
Margen
Dimension Tiempo
Tiempo_ID Dimension Cliente Tabla Cuenta Tabla Segmento
Semana_ID Cliente _ID Cuenta _ID Segmento _ID
Periodo_ID Cliente_desc Cuenta_desc Segmento_nombre
Año _ID Cuenta _ID Segmento _ID Segmento_desc
Fig. No. 22
Modelo copo de nieve
33
El modelo copo de nieve es mas cercano a un modelo entidad relación, que al clásico
modelo estrella, porque las dimensiones de los datos están normalizadas. Desarrollando un
modelo copo de nieve se puede desarrollar clases de jerarquías fuera de las dimensiones
(datos normalizados), que permitan análisis de lo general a lo particular y viceversa. El
modelo copo de nieve es muy conocido en el contexto de herramientas de Sistemas de
soporte de decisiones DSS (Decision support system), como en productos Oracle Express
donde se puede usar directamente; este modelo es muy flexible y puede ser implementado
después de que se haya desarrollado un modelo estrella. El modelo copo de nieve puede
tener estos inconvenientes:
- Un modelo copo de nieve con múltiples dimensiones cada una de ellas con
múltiples jerarquías crea un gran numero de dimensione s , lo cual hace un
modelo inmanejable, sin embargo él nunca es tan grande como, o tan
inmanejable como, un modelo estrella.
- Muchas uniones en las consultas, pueden sacrificar el desempeño del sistema.
La principal razón para usar modelos copo de nieve es la posibilidad de segregar los datos
de las dimensiones y proveer un modelo que sustente los requerimientos de diseño que
usted necesita.
Dimensiones
Tablas de Hechos
Tabla de Hechos Ventas Tabla Hechos Ventas Sumarizadas
Unidades Sum_Promedio_unidades
Ventas Sum_Promedio_ventas
Precio Sum_Promedio_precio
Costo Sum_Promedio_costo
El modelo constelación esta compuesto por una serie de modelos estrellas, donde existe una
tabla de hechos principal, y una serie de tablas de hechos agregadas o auxiliares, las cuales
pueden ser sumarizaciones de la principal, no necesariamente están relacionadas con las
mismas dimensiones de la principal, puede relacionarse con un subconjunto de ellas o con
nuevas dimensiones de acuerdo a los requerimientos del sistema.
existe una relación implícita, el código del rió nada tiene que ver con el código del
país, pero la relación existe, y la misma se resuelve relacionado espacialmente los
dos entes, son las más comunes en los sistemas de información geográfica. Las
relaciones como podemos notar poseen una cardinalidad la cual define la magnitud
o grado de la relación, la cardinalidad puede ser uno a uno, uno a muchos, o
muchos a muchos; en muchos textos se permuta él termino cardinalidad con él
termino multiplicidad, pero el primero es en un contexto relacional y el segundo en
un contexto objeto relacional donde encontramos mas categorías de cardinalidad.
• Los hechos son las columnas de los datos relacionados a las tablas de dimensiones
por las llaves.
Es bueno tener en cuenta que en los sistemas tradicionales OLTP, la dimensión tiempo no
es modelada a diferencia de los Spatial Data Warehouse, donde el sello de tiempo del dato
es imprescindible, y por ende su diseño es de cuidado, entre lo que debemos tener en cuenta
cabe anotar que el tiempo no es una simple secuencia cronología representada
numéricamente, si no que posee fechas especiales que inciden notablemente en el negocio
si es viernes o no, o si ese viernes es de quincena o no, características que cualifican las
36
diferentes fechas; y que se pueden necesitar una historia secuencial especial para ciertos
datos. De igual manera es común que los clientes necesiten totales por alguna unidad de
tiempo, donde algunas sumas pueden requerir demasiado tiempo, de tal manera que se
deban prever para desarrollar y almacenar las respectivas operaciones, y una ultima
consideración a tener en cuenta es que el tiempo nos permite construir las diferentes
versiones de la información así como de los datos. Diseñar esta dimensión no es tarea fácil,
es importante detenerse a analizar la temporalidad de los datos, la historia, flexibilidad y
precisión de los mismos, para determinar el modelo mas eficiente que envuelva
satisfactoriamente los datos.
Otras consideraciones que se deben tener en cuenta para el afinamiento de la bodega son las
sumarizaciones que van ha aparecer como datos agregados en el modelo, las mismas se
pueden definir en la etapa de diseño o posteriormente, aunque generalmente se desarrollan
cuando la bodega esta en marcha y los usuarios con el uso de la misma establecen cuales
son las necesarias, las sumarizaciones no solamente son de datos numéricos, recordemos
37
que para ciertos análisis geográficos especiales también se desarrollan; si todo este tipo de
operaciones devuelven una gran cantidad de datos y consumen mucho recurso de maquina
es recomendable estructurarlas y almacenarlas en nuevas tablas auxiliares, el refresque de
las mismas se puede desarrollar simultaneo con el ciclo de alimentación de la bodega, o en
intervalos de tiempo diferentes de acuerdo a la operación en ejecución; definir una buena
estrategia de implementación de datos sumariados, ayúdese en los usuarios, en el
administrador de la bodega, y en las estadísticas del motor de la base de datos de las
operaciones que congestionan el sistema y su frecuencia.
Recuerde que depend iendo el modelo de la bodega el mantenimiento de la historia de los
datos puede ser mas fácil o compleja, la historia del dato es diferente al sello temporal del
dato, circunstancia obligatoria en la bodega, la historia se refiere a las versiones de los
datos por ejemplo el cliente Pepito Pérez hasta el mes pasado era soltero de ahí en adelante
es casado, entonces en la tabla de clientes existe un único registro para Pepito pero en la
tabla de historia de los clientes existen dos para el mismo con las condiciones cambiantes,
en el caso de los datos espaciales las versiones son un caso mas frecuente y mas importante
porque sobre las mismas se desarrollan muchos análisis, el análisis de requerimientos nos
determinara si necesitamos o no este tipo de situaciones.
Tabla de Hechos
Tabla de Hechos Ventas
Tiempo_ID
Tienda_ID
Cliente_ID
Producto_ID
Unidades
Ventas
Precio
Costo
Margen
No olvidar que todos los procesos deben ser documentados, existen herramientas que
permiten ir documentando los procesos paralelo a su diseño, es ejemplo de las herramientas
de Oracle, no lo deje para el final o sus Metadatos no serán los mas recomendables, evitar
mezclar los modelos de la bodega (estrella, copo de nieve y constelación) porque
conseguirá un esquema Mismas, el cual no es un modelo si no la situación de tener un
modelo poco entendible combinando todos los modelos existentes, su mantenimiento,
cargue y afinamiento serán complicados; lo mas importante siempre es acompañarse de los
usuarios, revisar, comunicar, publicar y distribuir todos los avances del proyecto, para
eventuales correcciones, la bodega va a ser el sustento y soporte para la toma de todas las
decisiones del negocio, si no posee los criterios y necesidades de los que deciden no cumple
con la finalidad de la bodega.
Partir del modelo corporativo para establecer el modelo de la bodega es un buen camino,
aunque no es obligatorio iniciar por este, la ventaja de mismo radica en que se garantiza
abarcar todo el modelo lógico de los sistemas operacionales y reglas vigentes en la
empresa, y el diseño de los procesos ETT en fácilmente manipulable; en algunos casos
como antes habíamos mencionado no existe un modelo corporativo por diferentes motivos,
algunos expertos en el tema prefieren desarrollar uno y transformarlo al de la bodega, otros
mas versados simplemente en estas situaciones inician directamente con el de la bodega, lo
importante es que sea operable, funcional y sea lo que se necesite.
La transformación de un modelo al otro es un proceso secuencial sencillo de entender, el
cual describiremos paso a paso a continuación:
1. Remueva todos los datos operacionales, derivados y desnormalice el modelo
corporativo. En el ejemplo se remueven los atributos precedidos de (-), y se
agregan los precedidos de (+), todos en color azul.
39
Modelo corporativo
VENTAS
#* Ventas_ID CLIENTE ITEM_VENTAS
* Numero_Orden #* Cliente_ID #* Item_Venta_ID
* Fecha * Nombre * Precio
º Comentarios * Dirección * Costo
º Asignación * Telefono º Comentarios
* Creado_por º Descripcion
* Credito_ver_por
TIENDA
* Empleado_ver_ID
#* Tienda_ID
* Geometria_ID
* Ubicación
º Descripción
CUENTA_CLIENTE PRODUCTO
º Fecha_creación
#* Cuenta_ID #* Producto_ID
º Descripción * Item_ID
* Creada_por * Familia_ID
#* Sector_ID - Creado_por
- Descripción
- Sector_Desc
* Estrato_ID
- Estrato_Desc
Fig. No. 28
Primer paso remover datos operacionales
40
CLIENTE ITEM_VENTAS
VENTAS
#* Cliente_ID #* Item_Venta_ID
#* Ventas_ID
* Nombre * Precio
* Numero_Orden
* Dirección * Costo
* Fecha
* Telefono
TIENDA
#* Tienda_ID
* Geometria_ID CUENTA_CLIENTE
Adicionar el tiempo
VENTAS
#* Ventas_ID CLIENTE ITEM_VENTAS
* Numero_Orden #* Cliente_ID #* Item_Venta_ID
* Fecha * Nombre * Precio
* Dirección * Costo
+ Fecha_instantanea
* Telefono
+ Fecha_instantanea
TIENDA
#* Tienda_ID
* Geometria_ID
* Ubicación
CUENTA_CLIENTE
+ Fecha_instantanea
PRODUCTO
#* Cuenta_ID
+ Fecha_instantanea #* Producto_ID
* Item_ID
SECTOR * Familia_ID
#* Sector_ID * Clase_ID
+ Fecha_instantanea
* Estrato_ID
+ Fecha_instantanea
Fig. No. 30
Segundo paso adicionar el elemento tiempo
41
SECTOR * Clase_ID
#* Sector_ID * Fecha_instantanea
* Estrato_ID + Total_Productos
* Fecha_instantanea
Fig. No. 31
Tercer paso adicionar datos derivados
4. Crear relaciones que determinen las reglas del negocio entre los datos, hasta
esta fase las entidades no contienen las llaves primarias y foráneas que
definen las relaciones.
42
VENTAS
Crear relaciones
#* Ventas_ID
+ Cliente_ID
* Numero_Orden CLIENTE ITEM_VENTAS
* Fecha #* Cliente_ID #* Item_Venta_ID
* Total_ventas * Nombre + Ventas_ID
* Precio
* Costo * Dirección * Precio
* Margen * Telefono * Costo
* Fecha_instantanea * Fecha_instantanea
* Total_compras
TIENDA + Cuenta_ID
#* Tienda_ID
* Geometria_ID
* Ubicación
* Fecha_instantanea
CUENTA_CLIENTE PRODUCTO
* Total_tiendas
#* Cuenta_ID #* Producto_ID
* Fecha_instantanea
* Item_ID
* Familia_ID
SECTOR * Clase_ID
#* Sector_ID * Fecha_instantanea
* Estrato_ID * Total_Productos
* Fecha_instantanea
Fig. No. 32
Cuarto paso crear relaciones
5. Juntar datos afines, determine cuales de estas tablas contienen datos afines
que puedan ser unidos o combinados por las llaves comunes, recuerde que la
idea es desnormalizar, en este paso tómese su tiempo y ayúdese de
herramientas para garantizar la calidad de los datos, ya que usted puede unir
datos de distintas fuentes y estructuras.
PRODUCTO HISTORIA_PROD
#* Producto_ID + Producto_ID
* Item_ID + Fecha_instantanea
SECTOR
* Familia_ID + Item_ID
#* Sector_ID
* Clase_ID + Familia_ID
* Estrato_ID
* Fecha_instantanea + Clase_ID
* Fecha_instantanea
* Total_Productos + Versión
Fig. No. 34
Sexto paso segregar datos(1)
8. Aplicar datos contextuales, este paso esta compuesto por dos fases:
- Aplique criterio contextual simple a los datos, como la estructura de
cada atributo o datos que permitan codificar y medir los diferentes
atributos.
- Aplique criterio contextual complejo a los datos, como información
descriptiva del negocio o información externa de la empresa
producida por otros entes, así como la información geográfica base
de referencia.
45
* Mes_ID * Telefono
* Trimestre_ID * Total_compras
VENTAS
* Semestre_ID + Edad
#* Ventas_ID
* Año_ID + Sexo
* Cliente_ID
+ Quincena + Estado_civil
* Numero_Orden
+ Temporada * Fecha
* Total_ventas
TIENDA * Precio
* Costo
#* Tienda_ID * Margen
* Geometria_ID * Bodega_ID
* Ubicación * Agotado
* Total_tiendas * Vendido PRODUCTO HISTORIA_PROD
#* Producto_ID #* Producto_ID
* Item_ID * Fecha_instantanea
SECTOR * Familia_ID * Item_ID
#* Sector_ID * Clase_ID * Familia_ID
* Estrato_ID * Total_Productos * Clase_ID
+ Vigencia * Versión
Fig. No. 37
Octavo paso aplicar datos contextuales
Sintetizando todo
TIEMPO CLIENTE DETALLE_CLIENTE
Trimestre_ID Total_compras
VENTAS
Semestre_ID Edad
Ventas_ID
Año_ID Sexo
Cliente_ID
Quincena Estado_civil
Tiempo_ID
Temporada Producto_ID
Tienda_ID
TIENDA Numero_Orden
#* Tienda_ID Fecha
* Geometria_ID Total_ventas
Precio
* Ubicación
Costo
* Total_tiendas Margen PRODUCTO HISTORIA_PROD
Bodega_ID Producto_ID Producto_ID
Agotado Item_ID Fecha_instantanea
SECTOR Familia_ID Item_ID
Vendido
Sector_ID Clase_ID Familia_ID
Estrato_ID Total_Productos Clase_ID
Vigencia Versión
Fig. No. 38
Noveno paso sintetice todo el modelo de la bodega.
47
Un proyecto de esta magnitudes tiene muchos desafíos, de tal manera que la metodología
debe estar orientada a:
• Enfocar los alcances y requerimientos, creando una arquitectura flexible y capaz de
prosperar dinámicamente de acuerdo al ambiente del negocio, brindando una gama
de usos impredecibles pero aplicables para los usuarios.
• Ser capas de manejar y diluir los diferentes riesgos que se puedan presentar a lo
largo de todo el proyecto, en especial en los datos.
• Involucrar en cada uno de los procesos y etapas del proyecto a los diferentes
usuarios, que sean agente activo del mismo.
• Establecer una comunidad enfocada a la cultura geográfica.
• Definir la arquitectura técnica de la bodega, de tal manera que integre todos los
datos de las diferentes componentes del negocio, y entregue una extensible y
escalable solución
• Esbozar una aproximación que produzca rápidos e inmediatos beneficios al
negocio, como soluciones Data Mart.
• Emplear variedad de tecnologías vigentes, estándares y escalables para la variedad
de procesos del proyecto.
• Colocar claros todos los procesos y tareas del proyecto, así podrá de igual manera
entregar objetivos claros y concisos.
• Asignar tareas a los procesos, basados en técnicas comunes, habilidades o
dependencias.
• Asignar procesos a las fases, basado en el desarrollo propuesto para el proyecto, la
culminación de cada fase debe reflejar el cumplimiento de un objetivo.
Adquisiciòn de datos
Arquitectura Técnica
Calidad de Datos
Arquitectura de la Bodega
Documentaciòn
Prueba
Entrenamiento
Transiciòn
Recordemos que el desarrollo del proyecto puede ser incremental o empaquetado conocido
como soluciones tipo Data Mart, donde en el primero se realiza para todo el negocio, y el
segundo el mas recomendado se desarrolla por áreas del ne gocio las cuales se pueden
consolidar al final del ultimo sub. proyecto DM. Independiente al tipo de acercamiento que
se desarrolle los procesos y las diferentes fases prevalecen, variando solamente el volumen
de trabajo a desarrollar. Tenga presente que si usted desea desarrollar su proyecto
implementando Data Mart por áreas como sub. proyectos de la bodega, el modelo, análisis
y alcances debe ser global para poder determinar dimensiones comunes entre los diferentes
52
proyectos DM, para no desarrollar tareas dobles y ser consecuente en una unificación final,
si no se realiza de esta manera al final cuando se pretenda desarrollar la unificación en la
bodega, la misma no lograra conciliar las diferentes áreas, y el proyecto será un fracaso.
Una implementación empaquetada puede ser un componente de una solución incremental.
Una vez establecidos los diferentes procesos, debemos definir los aspectos que hacen parte
del proyecto de la bodega, los cuales denominaremos fases, para este tipo de proyectos
podemos esbozar las siguientes fases:
TRANSICION A
DEFINICION DISEÑO
LA PRODUCCION
Adquisiciòn de datos
Arquitectura Técnica
Calidad de Datos
Arquitectura de la Bodega
Documentaciòn
Prueba
Entrenamiento
Transiciòn
• Estrategia, se debe enfocar en los aspectos globales de la solución del Spatial Data
Warehouse a nivel de todo el negocio, mantener una sólida fundamentación para el
futuro, se debe determinar la estrategia de adquisición de los datos, Administración
de la bodega, calidad de los datos , Metadatos y acceso a los datos.
• Definición, esta fase consiste realizar un estudio de alcance de alto nivel, identificar
áreas para la prueba de los conceptos, identificar las áreas foco, conducir una visión
53
Todos los proyectos requieren un plan a todos los niveles, los diferentes métodos aseguran
la adherencia al plan, y todos los proyectos de Spatial Data Warehouse son muy similares a
nivel de implementación a los proyectos Data Warehouse. A la hora del proyecto se debe
contar con un buen equipo Spatial Data Warehouse, el cual debe comprender una amplia
mezcla de habilidades como:
- Nuevas tecnologías.
- Nuevos métodos.
- Nuevas herramientas.
- Nuevos paradigmas mentales.
Dentro del proyecto existen una serie de roles claves que pueden garantizar el éxito o
fracaso del proyecto como lo son:
existen en otros preámbulos dentro del negocio y que sean ellos los que sean los agentes
activos en estas actividades, de igual manera es recomendable que se realice un estudio de
los candidatos del negocio a desempeñar los roles faltantes cubiertos por la empresa
contratada y ellos sean asistentes de los mismos para que la transición de funciones una vez
finalizado la contratación sea optima y se garantice la continuidad de la bodega.
Las principales claves que permiten una habilitación optima del proyecto están en la
administración, la tecnología y los procesos, de igual manera las fases claves son la
planeación, implementación y operación de la bodega; y los principales factores críticos de
éxito son la metodología, conocimiento del negocio y compromiso, involucrar al usuario
final en todos los procesos y fases del proyecto, y tal vez la mas importante es la
investigación de requerimientos; sin dejar de lado los servicios de integración de sistemas
de consultoría, arquitectura del hardware, herramientas, aspectos operacionales, cultura
geográfica, administración del cambio, la definición del piloto, la expansión y los ajustes.
Una consideración que se debe tener es la expansión del numero de los usuarios, si el
proyecto es un éxito al inicio de la puesta en marcha no todos los usuarios lo utilizaran,
habrán usuarios incrédulos que inicia lmente no lo usaran, pero con la disolución de
incertidumbres lo harán cuantificar, prever y siguir detalladamente este fenómeno para que
en periodos posteriores a la implementación el sistema siga operando idealmente.
Usted debe tener los siguientes criterios para definir el hardware y el sistema operativo:
- Características de la arquitectura de hardware como memoria grande,
arquitectura escalable y clustering.
- Benchmark públicos.
56
BD OLTP
010101010101010101
ODS
010101010101010101
010101010101010101
010101010101010101
Archivos Planos
Fig. No. 41
Tecnología ArcGIS en el Spatial Data Warehouse.
58
ABREVIATURAS
LISTA DE GRAFICAS
GLOSARIO
REFERENCIAS