Está en la página 1de 6

THIS IS FOR LEFT PAGES 1

Estado del Arte Para “Hacia un diseño de


metodología para la implementación de bodegas de
datos espaciales con herramientas de código
abierto”
Germán David Martínez Ochoa, Estudiante Maestría en Ingeniería de Sistemas y Computación, Materia
Seminario de investigación 1, Código 2299863

Abstract—El presente escrito tiene como objeto presentar el mencionar es el proceso ETL (extracción, transformación y
estado del arte para la temática “Hacia un diseño de metodología carga), cuya labor es la de integración de los datos desde las
para la implementación de bodegas de datos espaciales con diferentes fuentes, hacia la consolidación del data warehouse.
herramientas de código abierto”. Las bodegas de datos han
sido de gran utilidad en el mundo empresarial, ayudando a Llegando hacia el final, se muestran las herramientas de
la toma de decisiones, este proceso se conoce con el nombre software libre para business intelligence que contienen análisis
de Business Intelligence, la utilización de este proceso se ha de datos de tipo geográfco.
extendido hasta contener datos de tipo espacial, puesto que Se considera importante, como parte introductoria, señalar
permiten pensar en una dimensión llamada “geográfica” de el tema escogido, que se ha definido como: “Hacia un diseño
gran importancia, pero a veces rezagada por la dificultad de
representación. Gracias al desarrollo de software en este frente, de metodología para la implementación de bodegas de datos
y la inclusión de estos tipos de datos en los motores de bases espaciales con herramientas de código abierto.” El tema integra
de datos, ahora pueden ser explotados desde el Spatial Data tres conceptos, el primero es el diseño de bodegas de datos
Warehouse. Recientemente se desarrollaron diferentes algoritmos espaciales difusas [20], unido al modelo de clustering basado
que buscan solucionar problemas cuando los datos espaciales no en redes neuronales [22], lo anterior bajo herramientas de
están claramente definidos, es decir, son difusos, aquí se presenta
un estado de arte de este tipo de bodegas de datos y del software, software libre.
en especial del libre que se ha desarrollado para la representación La siguiente figura 1, muestra de manera conceptual el tema.
espacial. Se espera que este artículo sea un punto de partida
para el desarrollo de una metodología que señale los lineamientos
para la implementación de bodegas de datos espaciales difusas
utilizando software libre.
Index Terms—bodega de datos, bodega de datos espacial,
metodologías de implantación, data mining, software libre, busi-
ness intelligence, data warehouse, spatial data wahouse.

I. I NTRODUCCIÓN
Este es un artículo que presenta el estado del arte de las
bases de datos espaciales. El documento comienza realizando
la presentación del tema, puesto que se considera de gran
importancia contextualizar a los lectores en los conceptos clave
contenidos en la temática.
Se hace una presentación del concepto de business intel-
ligence, el cual es un aspecto relevante para esta temática,
puesto que se ha convertido en una solución clave para el
toma de decisiones en las organizaciones, también se comenta
acerca del denominado spatial business intelligence, el cual
integra datos de tipo espacial ampliando la dimensionalidad
de los data warehouses y posibilitando la toma de decisiones Figure 1.
de manera más certera; teniendo estos dos conceptos claros, se Representación conceptual del tema
señala el data warehouse y el spatial data warehouse, también
se comenta una extensión de este último llamada spatial data
warehouse difusa. II. M APA C ONCEPTUAL
Los conceptos de OLAP y SOLAP también son presentados
El siguiente mapa presenta conceptualmente la temática del
como parte de este estado del arte. Un aspecto importante a
estado del arte, comienza con Business intelligence, se definen
2299863 temas relacionados con las bodegas de datos, las bodegas de
THIS IS FOR LEFT PAGES 2

datos espaciales junto con la temática derivada de cada una en [10] complementa la respuesta a la anterior pregunta,
de ellas como por ejemplo: data marts. modelado del DWH, “Business Intelligence ofrece a las organizaciones un marco
las S-DWH difusas, entre otras, y por último se presentan las para analizar la gran cantidad diaria de datos a fin de extraer
herramientas de software libre que tienen la caractrística de valoraciones que puedan proporcionar una ventaja decisiva en
administrar datos geográficos. la competitiva economía actual”.
Las herramientas de “Business Intelligence” permiten am-
pliar el conocimiento de las relaciones con clientes y socios,
además de ofrecer indicadores de rendimiento clave como
son las consultas multidimensionales, cuadros de mando y
indicadores. Al llevar a la práctica estos conocimientos, las
compañías pueden obtener importantes beneficios en forma
de mayores ganancias, una mejor capacidad de aprovechar las
nuevas oportunidades y la capacidad de reaccionar antes a los
cambios en la demanda del mercado.
Inteligencia de negocios o “Business Intelligence” (BI por
sus siglas en inglés), se puede definir como el proceso de
analizar los datos en una empresa y extraer reportes traducidos
en inteligencia o conocimiento. Dentro de los datos se incluyen
los clientes, productos, información de la cadena de sumin-
istro, ventas personales y cualquier actividad de mercadeo
o fuente de información relevante para la empresa. Según
Larissa T. Moss, Shaku Atre [11] La inteligencia de negocios
incluye entre otros los siguientes procesos: Análisis multidi-
mensional, “Data mining” “Forecasting analysis” del negocio,
“Balance scorecard” consultas y reporteo, administración del
conocimiento, minería de datos para texto, contenido y voz,
“dashboard”.

B. Spatial Business Intelligence


Los datos que han sido capturados a través de los años en
las grandes bases de datos de las organizaciones, en muchas
ocasiones contenía información geográfica. Esta información
tenía indicaciones de su ubicación, por ejemplo las direcciones
Figure 2. de clientes, proveedores, sucursales, y demás, esta información
Mapa conceptual de la temática del estado del arte era representada en los informes gerenciales a través de
tablas, gráficos de pastel, histogramas, etc., pero nunca había
sido explotada con el fin de obtener información valiosa que
III. D EFINICIONES permitiera la toma de decisiones. Con el tiempo los motores
Es necesario incluir algunas definiciones que son necesarias de bases de datos incluyeron datos de tipo geográfico, los
para el entendimiento del tema propuesto, los temas cubren lo cuales permiten ubicar en un mapa la posición, por ejemplo
relacionado con bodegas de datos, bodegas de datos difusas, de un cliente, de la venta de un producto, entre otros, y
las metodologías de implementación de las bodegas de datos, posteriormente realizar un análisis muy preciso utilizando
técnicas de explotación de bodegas de datos difusas y her- estos mapas con ubicaciones.
ramientas de software libre para la implementación de estos Dado lo anterior, emerge el Spatial Business Intelligence,
sistemas. en donde la variable espacio es agregada para obtener infor-
mación más específica y mejores resultados en el proceso de
A. Bussiness Intelligence toma de decisión en las organizaciones[6].
Las organizaciones actuales tienen la posibilidad de re-
copilar y almacenar volúmenes nunca imaginables de datos C. Data Warehouse (DWH)
operativos de los clientes. Existen muchas definiciones para el almacén de datos, la
La pregunta es saber cómo emplear toda esta información más conocida fue propuesta por Inmon [17]: "un almacén de
para tomar mejores decisiones. Harjinder, S. Gill en su li- datos es un conjunto de datos integrados, orientados a una
bro La integración de información para la mejor toma de materia, que varían con el tiempo y que no son transitorios,
decisiones hace la siguiente pregunta: “£Cómo puede una los cuales soportan el proceso de toma de decisiones de una
empresa deslumbrar a sus clientes, acrecentar sus dividendos e administración". En 1993, Susan Osterfeldt [2] publicó una
incrementar sus acciones de mercado, todo al mismo tiempo? muy buena definición hablando acerca del DWH "Yo considero
Una de las respuestas es la bodega de datos” [1]. Kimball al DWH como algo que provee dos beneficios empresariales
THIS IS FOR LEFT PAGES 3

reales: Integración y Acceso de datos. DWH elimina una gran • Transformación


cantidad de datos inútiles y no deseados, como también el • Carga
procesamiento desde el ambiente operacional clásico". En la
tabla 1 se muestra una comparación entre un modelo clásico
E. Modelado del Data Warehouse
operacional y una bodega de datos, es tomado de [3] en
donde también se afirma: “Las características de un Data Una de las formas más comunes de modelar un “Data
Warehouse, diseño con orientación a temas, integración de Warehouse”, es el llamado “Esquema en estrella”, como el
los datos contenidos, variación en el tiempo, no volatilidad nombre sugiere, el esquema estrella es un paradigma de
y simplicidad de la gestión de datos, conducen a un entorno modelado que tiene un solo objeto central relacionado de
que es muy diferente del entorno operacional clásico.” manera radial con otros objetos. El esquema en estrella refleja
la visión del usuario final de una consulta empresarial: hechos
Figure 3. Comparación entre una base de datos operacional y una bodega tales como ventas, compensación, pago y facturas se califican
por una o más dimensiones (por mes, por producto, por región
geográfica). El objeto en el centro de la estrella se denomina
tabla de hechos y los objetos conectados a ella se denominan
tabla de dimensión [1]. La siguiente figura tomada de [10]
presenta la representación gráfica de este esquema.

Figure 4.
Representación gráfica del modelo en estrella.

F. Spatial Data Warehouse (SDWH)


Dada la creciente necesidad de información de las empre-
sas y la necesidad de contar con datos de tipo geográfico,
surge como una alternativa la utilización de los Spatial Data
warehouse o bodegas de datos espaciales, las cuales integran
las tecnologías del data warehouse y las bases de datos espa-
ciales [5]. “Los Spatial Data Warehouse manejan un esquema
mutidimensional similar a las bodegas de datos tradicionales,
pero agregando una particularidad, la cual es una extensión de
tipo espacial que permite el manejo de elementos espaciales y
no espaciales” [6]. La siguiente figura tomada de [7] muestra
dicho esquema.

G. Spatial Data Warehouse Difusa


Una bodega espacial difusa puede ser definida como una
de datos. bodega de datos que contiene información geográfica y
además, cierta cantidad de esa información puede catalogarse
como “imprecisa”, lo cual da lugar a los datos difusos.
D. Data Mart
“Es un pequeño “Data Warehouse” (bodega de datos), para H. Procesamiento Analìtico en Línea (OLAP)
un determinado número de usuarios, de un área funcional, para En un almacén de datos se depositan datos para consulta,
una compañía específica. También es posible definir un “Data análisis y divulgación, a diferencia del procesamiento de
Mart” como un subconjunto de una bodega de datos para un transacciones en línea (OLTP por la sigla de “On – Line
propósito específico. Su función es apoyar a otros sistemas Transaction Processing”), en donde los datos se reúnen y
para la toma de decisiones” [1]. Los procesos que conforman almacenan para operación y control. OLAP es una tecnología
el “Data Warehouse” son: de procesamiento analítica que crea nueva información em-
• Extracción presarial a partir de los datos existentes, por medio de un
THIS IS FOR LEFT PAGES 4

Figure 5.
Esquema de un Spatial Data Warehouse

rico conjunto de transformaciones empresariales y cálculos pronósticos, planeación de impuestos y contabilidad de


numéricos [1]. costos [1].
Se define el procesamiento analítico en línea como una
tecnología de análisis de datos que hace lo siguiente: I. Proceso de ETL
• Presenta una visión multidimensional lógica de los datos El proceso de ETL según Wiley [4] utilizado al momento
en el almacén de datos. La visión es independiente de de crear bodegas de datos se define como:
cómo se almacenan los datos. • Extracción: Extrae la información operacional.
• Comprende siempre la consulta interactiva y el análisis • Transformación: Transforma la operación a formatos con-
de los datos. Por lo regular la interacción es de varias sistentes.
pasadas, lo cual incluye la profundización en niveles cada • Carga: Automatiza las tareas de la información, para su
vez más detallados o el ascenso a niveles superiores de posterior análisis.
resumen y adición. • La figura 4 muestra la descripción de este proceso, en
• Ofrece opciones de modelado analítico, incluyendo un donde se parte del análisis de las fuentes de información,
motor de cálculo para obtener proporciones, desviaciones, se continúa con la transformación de los datos encamina-
etcétera, que comprende mediciones de datos numéricos dos hacia la creación de un data warehouse y por último
a través de muchas dimensiones. la explotación del data warehouse a través de minería de
• Crea resúmenes y adiciones (también conocidas como datos, reportes, gráficas entre otros.
consolidaciones), jerarquías, y cuestiona todos los niveles
de adición y resumen en cada intersección de las dimen-
siones. J. SOLAP y Dato Geográfico
• Recupera y exhibe datos tabulares en dos o tres dimen- El dato geográfico es un componente que se ha venido
siones, cuadros y gráficas, con una perspectiva conduce desarrollando e incorporando a los motores de bases de datos
a otra cuestión empresarial que se va a examinar desde y por consiguiente a las bodegas de datos. Estos tipos de
otra perspectiva. datos representan una ubicación física y forma de un objeto
• Responde con rapidez a las consultas, de modo que el específico. “Estos objetos pueden ser ubicaciones de punto u
proceso de análisis no se interrumpe y la información no objetos más complejos como países, carreteras o lagos”.[24]
se desactualiza. Generalmente se utilizan dos tipos de datos para el alma-
• Tiene un motor de depósito de datos multidimensional, cenamiento espacial, estos son, geométricos y geográficos, los
que almacena los datos en arreglos. geométricos pueden ser representados en un plano cartesiano,
• Estos arreglos son una representación lógica de las di- de otra parte, los geográficos, son los que contienen datos
mensiones empresariales. La tecnología OLAP se aplica elípticos, es decir, almacenan coordenadas de latitud y longitud
en muchas áreas funcionales de una empresa, tales terrestres[24].
como producción, ventas y análisis de rentabilidad de Cuando se utiliza OLAP, el dato geográfico es aplicado
la comercialización; mezcla de manufacturas y análisis como un atributo adicional, sin darle la importancia que
de logística; consolidaciones financieras, presupuestos y requiere, es por esto que se han desarrollado herramientas
THIS IS FOR LEFT PAGES 5

Figure 6.
Proceso de ETL fuente [16]

como SOLAP (Spatial online analitical process) y las mismas


bodegas de datos espaciales, integrando las funcionalidades
con los sistemas de información geográfica (SIG) [6], [8].
Como lo menciona [6], el SOLAP emplea tres tipos de
dimensiones geográficas:
• No geométricas: Son dimensiones que solo presentan el
nombre geográfico, pero que no ofrecen detalle adicional,
ejemplo: Colombia - Cundinamarca - Bogota[6].
• Espaciales geométricas: Ofrecen todos los detalles del
punto geográfico del cual se habla, ejemplo: un mapa
[6].
• Espaciales mixtas: Es una unión de los tipos anteriores,
incluye las no geométricas y las geométricas, ejemplo de
estos es: Colombia - presentación del mapa de Colombia
[6].
Los anteriores tipos de dimensiones geográficas son presenta-
mos a través de la siguiente figura.
El SOLAP puede definirse como “un tipo de software que
permite una rápida y fácil navegación dentro de bases de datos
espaciales y que ofrece muchos niveles de granularidad de la
información, muchos temas, muchas épocas y muchos modos
de visualización sincronizada” [9].
Se han desarrollado motores de bases de datos que permiten
la inclusión de estos tipos de datos geográficos con el fin
de convertir y simplificar datos del complejo mundo real en
una base de datos con tipos de datos y funciones orientadas
hacia la geografía, ejemplo de esto es, por parte del software
propietario SQL Server 2008 [25], y por parte del software
libre, el proyecto Postgis [26] de Postgresql.

K. Spatial Data mining


Figure 7.
La minería de datos espacial busca encontrar las relaciones Tipo de datos geográficos del SOLAP [6]
existentes entre objetos de tipo espacial, esto lo hace a través
de las relaciones topológicas, las de orientación espacial y
las de distancia de información[6]. El proceso de encontrar
L. Herramientas de software libre para la implementación de
patrones en bases o bodegas de datos de tipo espacial es más
SDWH
complejo que en bases de datos tradicionales, la diferencia
está en el tipo de dato, las tradicionales contienen variables En el mercado existen algunas herramientas que son de
de tipo númerico, mientras que las espaciales contiennen datos software abierto que permiten la implementación de bodegas
de tipo geográfico[14]. de datos espaciales, en este artículo se destacan tres: Pentaho,
THIS IS FOR LEFT PAGES 6

Spago BI y Jaspersoft, las cuales se consideran importantes R EFERENCES


dentro del marco de esta investigación, por tal razón a contin- [1] Harjinder, S. Gill: La integración de información para la mejor toma de
uación se presentan de manera breve. decisiones. Prentice Hall Hispanoamericana, S.A, (1996) 52
[2] Abukari, K., Job, V.: Business Intelligence in action. Proquest.
1) Pentaho: Pentaho es una herramienta de Business In- http://www.crgroup.com/Downloads/PDFs/BusStrat.pdf (2003)
telligence de código abierto, que inició por un equipo de [3] Universitat Oberta de Catalunya: Los Almacenes de Datos. Data Ware-
veteranos en la industria de Business Intelligence en el año houses. Cataluña. UOC. (2007) 8, 13
[4] Wiley, J: The Data Warehouse ETL Toolkit: Practical Techniques for
2004. Pentaho contiene diferentes módulos, entre los que se Extracting, Cleaning, Conforming, and Delivering Data (2004) 2
destacan: análisis, cuadros de mando, integración de datos [5] Malinowski, E: Advanced Data Warehouse Design From Conventional
(procesos ETL), y data mining. Esta herramienta implementar to Spatial and Temporal Applications. Berlin. Springer. (2008) 16 - 51
[6] Dueñas-Reyes, M. X. Minería de datos espaciales en búsqueda de la
bodegas de datos espaciales. [12] verdadera información (2008) 137 - 152
2) Spago BI : Spago BI, es una herramienta desarrollada [7] Bohorquez, J. E. Aproximación metodológica de un
completamente bajo la filosofía del software abierto, esta Spatial Data Warehouse. 2000 [documento en línea]. <
http://proceedings.esri.com/library/userconf/latinproc00/colombia/
herramienta satisface todos los requerimientos de business spatial_data.pdf>. [Consulta 20-04-2010].
intelligence, análisis, manejo de la información, seguridad, [8] Matias, R. y Moura-Pires, J. Spatial On-Line Analytical Processing
entre otros. Spago BI contiene dentro de sus soluciones, (SOLAP): A tool the to analyze the emission of pollutants in industrial
installations. 2005
reporteo, análisis multidimensional (OLAP), minería de datos, [9] Bedard, Y.; Proultx, M. J. y RIVEST, S. Enrichissement du OLAP
creación de cuadros de mando, en sus versiones recientes pour l’analyse géographi- que: exemples de réalisation et différentes
han incluido el análisis georeferencial, lo cual despierta gran possibilités technologiques. Paris: Cépaduès, (2005) 1 - 20.
[10] Kimball, R.: The data warehouse toolkit. Wiley and sons. (2002) 395 –
interés para el desarrollo de proyectos de bodegas de datos 402
espaciales[15]. [11] Moss, L., Atre, S.: Business Intelligence Roadmap: The Complete
Project Lifecycle for Decision-Support Applications. Addison Wesley.
3) Jaspersoft : Jaspersoft es una herramienta de software (2003) 23
libre enmarcada dentro del concepto de Business Intelligence, [12] http://www.pentaho.com/ [Consulta 25-04-2010].
inició en el año 2001 bajo el nombre Jasper Repors y no era [13] http://www.jaspersoft.com/jaspersoft-business-intelligence-suite
[Consulta 25-04-2010].
software libre, hacia el año 2005 se convirtió en software libre, [14] Martin, E.; Kriegel, H.-P. y Sander, J. Algorithms and applications for
el cual contiene reportes, cuadros de mando, herramientas para spatial data mining. In Miller, H. y Han, J. Geographic data mining and
el análisis de datos e integración de datos, también posibilita knowledge discovery. London: Taylor & Francis, 2001. pp. 1-10.
[15] http://www.spagoworld.org/xwiki/bin/view/SpagoBI/ [Consulta 25-04-
la aplicación de algoritmos de minería de datos. [13] 2010].
[16] http://www.faktos.com/soluciones.php [Consulta 25-04-2010].
[17] Inmon, W. Building the data warehouse. Wiley and sons.(2002)390.
IV. CONCLUSIONES [18] Malinowski, E.Zimanyi, E. Spatial Data Warehouses: Some Solutions
and Unresolved Problems Databases for Next Generation Researchers,
2007. SWOD 2007. IEEE
Las bodegas de datos son grandes repositorios que varían [19] Chen,J.-K.Concurrencycontrolofspatialjoinonspatialdatabase Computer
con el tiempo, que son transitorios y que permiten la obtención and Information Science, 2005. Fourth Annual ACIS International
de conocimiento [17], con el transcurso de los años, las bode- Conference on, 2005
[20] David, P. Somodevilla, M.P.I. Fuzzy Spatial Data Warehouse: A Mul-
gas de datos se han aplicado a las bases de datos espaciales, tidimensional Model Current Trends in Computer Science, 2007. ENC
originando las bodegas de datos espaciales (SDWH) [18], 2007. Eighth Mexican International Conference on, 2007
dando lugar al desarrollado modelos [19][20][21], técnicas [21] Borah, B. Bhattacharyya, D. An improved sampling-based DBSCAN for
large spatial databases Intelligent Sensing and Information Processing,
[22] y herramientas de software[23], con respecto a estas 2004. Proceedings of International Conference on, 2004
herramientas de software el denominado open source, ha [22] Elhadary, R. S. Tolba, An efficient and robust combined clustering
hecho un gran aporte y ha generado muchas herramientas que technique for mining in large spatial databases Computer Engineering
& Systems, 2007. ICCES ’07. International Conference on, 2007
permiten una mejor manipulación de los datos espaciales para [23] Kim, D-Miner:A spatial datamining system IEEE, 2009
la obtención de conocimiento. [24] http://msdn.microsoft.com/es-es/library/bb933790.aspx [Consulta 16-05-
La investigación y el desarrollo en el campo de las bode- 2010].
[25] http://www.microsoft.com/sqlserver/2008/en/us/spatial-data.aspx [Con-
gas de datos espaciales ha ofrecido entre otras cosas, una sulta 16-05-2010].
metodología de diseño para bodegas de datos espaciales di- [26] http://postgis.refractions.net/ [Consulta 16-05-2010].
fusas enfatizando la construcción del cubo de datos[20] y un
modelo de clustering combinado con redes neuronales que no
requiere un conocimiento a priori del número de clusters (a
menudo el número óptimo de clusters no se conoce antes de
la ejecución) sino un número máximo de clusters [22].
Esta investigación quiere extender la metodología de diseño
para bodegas de datos difusas [20] uniéndola a la explotación
por medio del modelo de clustering con redes neuronales [22],
lo anterior enmarcado en la utilizando herramientas de open
source, de tal forma que exista un lineamiento claro en la
aplicación de los modelos anteriormente presentados cuando
se emprenda un proyecto de bodegas de datos espaciales sobre
herramientas open source.