Está en la página 1de 5

Bases de Datos de Objetos No Estructurados

Anabella De Battista , Andrés Pascal,


Pablo Gancharov, Melisa Argüello, Christian Saliwonczyk
Departamento de Sistemas de Información
Fac. Reg. Concepción del Uruguay
Universidad Tecnológica Nacional
Entre Rı́os, Argentina
{debattistaa, pascalj, gancharovp, arguellom, saliwonczykc}@frcu.utn.edu.ar

Norma Edith Herrera Gilberto Gutierrez


Departamento de Informática Facultad de Ciencias Empresariales
Univ. Nac. de San Luis Universidad del Bio-Bio
San Luis, Argentina Chillán, Chile
nherrera@unsl.edu.ar ggutierr@ubiobio.cl

Resumen tar información histórica. Como solución han


surgido modelos como el espacial, temporal,
En las bases de datos tradicionales es fre- espacio-temporal, espacios métricos y el mo-
cuente el procesamiento de consultas por exac- delo métrico-temporal, que permiten represen-
titud o por rango de valores suceptibles de ser tar y manipular estos tipos de datos. El tema de
ordenados, sobre datos estructurados en regis- estudio del Grupo de Investigación en Bases
tros de tamaño fijo compuestos por campos de Datos (GIBD), es el modelado de objetos
comparables. La necesidad de almacenar otros no estructurados y el procesamiento eficiente
tipos de datos tales como los objetos multi- de consultas sobre estos tipos de datos.
mediales (imágenes, video, texto) y el hecho Palabras Claves: Bases de Datos Espacia-
de que estos datos no puedan estructurarse, les, Bases de Datos Espacio-Temporales, Es-
obligó a extender las capacidades de las ba- pacios Métricos, Índices, Espacios Métrico-
ses de datos; pero en la mayorı́a de los ca- Temporales.
sos sólo se permiten el almacenamiento y al-
guna funcionalidad adicional. Por ello resul-
ta necesario desarrollar nuevos enfoques para 1. Contexto
almacenar y la buscar objetos no estructura-
dos eficientemente. En estos nuevos modelos El presente trabajo se desarrolla en el ámbi-
la búsqueda exacta carece de interés y en mu- to del proyecto Métodos de acceso, consultas
chos casos se requiere mantener los distintos y aplicaciones en modelos de bases de datos
estados de la base de datos a través de tiempo no convencionales (PID 25-D040) del Grupo
y no sólo el más reciente, para poder consul- de Investigación en Bases de Datos, pertene-

____________________________________
PAGINA - 147 -
ciente al Departamento Ingenierı́a en Sistemas tar de interés obtener los terrenos geográfica-
de Información de la Universidad Tecnológica mente adyacentes a uno dado, o encontrar to-
Nacional, F. R. Concepción del Uruguay. dos los hospitales cercanos a una determinada
ruta. Existen muchas aplicaciones para el mo-
delo de bases de datos espaciales; una de las
2. Introducción más destacadas son los sistemas de informa-
ción geográfica (SIG), que realizan el procesa-
Las bases de datos clásicas se organizan ba- miento de datos geográficos y que almacenan
jo el concepto de búsqueda exacta sobre da- la geometrı́a y los atributos de datos con algún
tos estructurados. Esto significa que la infor- tipo de georreferencia, es decir, situados en la
mación se organiza en registros los cuales se superficie de la tierra y representados bajo una
dividen en campos que contienen valores com- proyección cartográfica. Uno de sus objetivos
pletamente comparables. Una consulta retorna es resolver problemas complejos de planifica-
todos aquellos registros cuyos campos coinci- ción y gestión.
den con los aportados en la consulta (búsqueda
exacta). Por otro lado, otra caracterı́stica im- Las Bases de Datos Temporales manejan in-
portante de las bases de datos clásicas es que ternamente una o más dimensiones tempora-
capturan sólo un estado de la realidad modela- les, permitiendo asociar tiempos a los datos
da, usualmente el más reciente. Por medio de almacenados. Existen tres clases de bases de
las transacciones, la base de datos evoluciona datos temporales según el modo en que ma-
de un estado al siguiente descartando el estado nejan el tiempo: (a) de tiempo transaccional
previo. (transaction time), donde el tiempo se regis-
En la actualidad es necesario implemen- tra de acuerdo al orden en que se procesan las
tar nuevas estrategias de almacenamiento y transacciones; (b) de tiempo vigente (valid ti-
búsqueda para nuevos modelos de bases de da- me), que almacenan el momento en que el he-
tos, que permiten almacenar datos no estructu- cho ocurrió en la realidad, que puede no coin-
rados tales como imágenes, sonido, texto, vi- cidir con el momento de su registro; y (c) bi-
deo, datos geométricos, etc. Las caracterı́sti- temporales, que integran la dimensión transac-
cas principales de estos nuevos tipos de datos cional y la dimensión vigente a través del ver-
es que no poseen una estructura uniforme, por sionado de los estados. En las consultas se
lo cual los ı́ndices tales como el B*-Tree no requiere conocer el comportamiento de algún
se pueden utilizar para hacer más eficiente la objeto en algún instante dado o durante un in-
búsqueda, las consultas por igualdad carecen tervalo de tiempo determinado. Por ejemplo
de interés, y en algunos casos es un requisito una consulta temporal podrı́a ser recuperar la
mantener todos los estados de la base de datos evolución del sueldo de un empleado en un in-
y no sólo el más reciente. En este contexto se tervalo de tiempo dado, o encontrar todos los
han generado los nuevos modelos que descri- empleados que tenı́an cierta categorı́a en una
bimos brevemente a continuación. fecha dada.
Las Bases de Datos Espaciales permiten Los Espacios Métricos constituyen un mo-
procesar objetos con alguna referencia espa- delo de bases de datos orientado al almacena-
cial. Un dato espacial puede ser en su for- miento de objetos no estructurados, que per-
ma más simple un punto, una polilı́nea o un mite realizar consultas por similitud eficiente-
polı́gono. La persistencia de estos tipos de da- mente. Este tipo de consultas utiliza funciones
tos espaciales se basa no sólo en el valor de de distancia para determinar el grado de simi-
ciertos atributos, sino también en la ubicación litud entre los objetos de la base de datos y
espacial del objeto. Por ejemplo, podrı́a resul- el objeto que se consulta. Un Espacio Métri-

____________________________________
PAGINA - 148 -
co se define como un par (U , d) donde U es En este modelo se puede trabajar con objetos
el universo de objetos válidos del espacio y no estructurados con tiempos de vigencia aso-
d : U × U −→ R+ es una función de distan- ciados y realizar consultas por similitud y por
cia definida entre los elementos de U que mide tiempo en forma simultánea. Formalmente un
su similitud (a menor distancia más cercanos Espacio Métrico-Temporal es un par (U , d ),
o similares son los objetos). Llamaremos base donde U = O × N × N , y la función d es de
de datos a cualquier subconjunto finito X ⊆ U la forma d : O × O → R+ . Cada elemento
cuya cardinalidad es |X| = n. La función d u ∈ U es una triupla (obj, ti , tf ), donde obj es
cumple con las propiedades caracterı́sticas de un objeto (por ejemplo, una imagen, sonido,
una función métrica: ∀x, y ∈ U, d(x, y) ≥ 0 cadena, etc) y [ti , tf ] es el intervalo de vigen-
(positividad); ∀x, y ∈ U, d(x, y) = d(y, x) cia de obj. La función de distancia d, que mi-
(simetrı́a); ∀x ∈ U, d(x, x) = 0 (reflexivi- de la similitud entre dos objetos, cumple con
dad) y ∀x, y, z ∈ U, d(x, y) ≤ d(x, z) + las propiedades de una métrica (positividad,
d(z, y) (desigualdad triangular). En base a este simetrı́a, reflexividad y desigualdad triangu-
modelo se han desarrollado ı́ndices especiales lar). Una consulta métrico-temporal por ran-
que aumentan la velocidad de respuesta de las go se define como una 4-upla (q, r, tiq , tf q )d ,
búsquedas por similitud. tal que (q, r, tiq , tf q )d = {o/(o, tio , tf o ) ∈ X ∧
Estos tres tipos de bases de datos se pueden d(q, o) ≤ r ∧ (tio ≤ tf q ) ∧ (tiq ≤ tf o )}.
combinar para resolver consultas complejas
que involucran más de un aspecto de los ante-
riormente descriptos. Ası́ han surgido los mo- 3. Lı́neas de Investigación
delos Espacio-Temporal y Métrico-Temporal.
Nuestra principal lı́nea de trabajo es el es-
Las Bases de Datos Espacio-Temporales
tudio de métodos de acceso, procesamiento
tratan con objetos que cambian su identidad, su
de consultas y aplicaciones de bases de datos
posición o su forma en el tiempo. Las consultas
no tradicionales, centrándonos principalmen-
a resolver en este tipo de bases de datos pue-
te en los modelos métrico-temporal y espacio-
den incluir referencias espaciales, tales como
temporal. Damos a continuación una descrip-
posición, intersección, inclusión o superposi-
ción de las lı́neas de investigación que actual-
ción, y temporales, tanto respecto al pasado o
mente estamos desarrollando.
presente como predicciones del tiempo futuro.
Por ejemplo, nos puede interesar saber cuál es
la máxima velocidad alcanzada por un objeto 3.1. Consultas Métrico Temporales
en un intervalo de tiempo, o recuperar los ob-
jetos que cruzaron una cierta área en un ins-
sobre Cadenas
tante de tiempo dado o incluso los que pasarán Hasta el momento se han propuesto cua-
por un punto en el futuro, si es que mantienen tro ı́ndices métrico-temporales: el FHQT-
su dirección. Entre las aplicaciones que tratan Temporal [6], el Historical-FHQT [2], el
con este tipo de bases de datos se incluyen las Event-FHQT [5] y el Pivot-FHQT [3] todos
de predicción climática, control de tráfico te- ellos han tomado como base el ı́ndice para es-
rrestre o aéreo, aspectos sociales (demografı́a, pacios métricos Fixed Height Queries Tree[1],
salud) y multimedia. que trabaja con funciones de distancia dis-
El Modelo Métrico-Temporal surge ante la cretas. Además se han diseñado las variantes
necesidad de aplicaciones donde resulta de in- FHQT+ -Temporal y Event-FHQT+ que permi-
terés realizar búsquedas por similitud tenien- ten tanto funciones discretas como continuas.
do en cuenta también la componente temporal. Para probar la eficiencia de los ı́ndices se

____________________________________
PAGINA - 149 -
desarrolló una aplicación que tiene por fi- gen. La segunda tarea afecta tanto la eficacia
nalidad permitir efectuar consultas métrico- como la eficiencia; la eficacia porque la fun-
temporales sobre el sistema de archivos de ción de distancia modela formalmente lo que
los sistemas operativos (Windows/Linux). Es- se entiende por similitud y la eficiencia porque
ta aplicación está orientada a la búsqueda por el costo de búsqueda en el ı́ndice se ve direc-
similitud de archivos y carpetas tanto por nom- tamente afectado por el costo de cálculo de la
bre como por fecha, con diferentes radios de función de distancia y por la distribución de
búsqueda, y utiliza ı́ndices métrico-temporales distancias que genera.
que disminuyen significativamente el tiempo Si bien hay numerosos trabajos de investiga-
de respuesta. ción que se concentran en el preprocesamiento
de las imágenes y extracción de caracterı́sticas
[8], las funciones de distancia [7] y los ı́ndices
3.2. Búsqueda de Imágenes métricos [4], la mayorı́a lo hace por separado,
sin estudiar la integración de estos aspectos.
En la búsqueda de imágenes por similitud en
En esta lı́nea hemos trabajado definiendo un
grandes bases de datos, es tan importante la efi-
proceso para el tratamiento integral de las ba-
ciencia del sistema (recuperar imágenes en un
ses de datos de imágenes.
tiempo razonable) como su eficacia (recuperar
imágenes que sean realmente de interés). La
eficacia depende principalmente del preproce- 3.3. Aplicaciones de Bases de Datos
samiento de las imágenes, de la técnica de ex- Espaciales y Sistemas de Infor-
tracción de caracterı́sticas y de la función de
distancia que se emplee. Por otro lado, los fac-
mación Geográfica
tores de mayor relevancia para la eficiencia del En el marco de este proyecto se han firma-
proceso son el costo de la función de distancia do convenios de colaboración con otras insti-
y el tipo de ı́ndice que se utilice para acelerar tuciones y grupos de investigación con el fin
la búsqueda. de prestar servicios relacionados a la temáti-
Un verdadero sistema de recuperación de ca del grupo. Se colaboró con el Grupo de Es-
imágenes debe permitir dar una imagen como tudios de Calidad y Medio Ambiente de esta
objeto de consulta y debe poder determinar la Facultad en la elaboración de un informe pa-
similitud entre ese objeto y cada una de las ra analizar y describir el sector comercial y de
imágenes de la base de datos en forma eficien- servicios de la ciudad de Concepción del Uru-
te, a fin de responder la consulta. guay a fin de obtener una herramienta de pla-
La búsqueda por similitud aplicada a imáge- nificación. Con la Secretarı́a de Desarrollo So-
nes implica transformar las imágenes en vecto- cial del Municipio de Concepción del Uruguay
res de caracterı́sticas que luego se insertan en se firmó un convenio para desarrollar e imple-
un ı́ndice métrico. Luego, ante una consulta, se mentar una herramienta SIG (Sistema de Infor-
transforma la imagen de consulta de la misma mación Geográfica) para la LINEA 102 (Lı́nea
manera para poder buscar usando el ı́ndice. de los Derechos) que sirva como herramienta
Existen dos tareas que son cruciales en este de planificación y soporte a la toma de deci-
proceso: una es convertir las imágenes en vec- siones, mediante la visualización en un mapa
tores y la otra definir una función de distancia de la ciudad de las direcciones asociadas a las
que permita comparar las imágenes. La prime- denuncias telefónicas recibidas por dicho ser-
ra tarea afecta directamente la eficacia del sis- vicio de atención telefónica y la vinculación
tema dado que las búsquedas se realizarán en de esta capa con otras de interés. Con la Facul-
base a las caracterı́sticas extraı́das de cada ima- tad de Ciencias de la Salud de la Univ. Nac.

____________________________________
PAGINA - 150 -
de Entre Rı́os se estableció un convenio pa- Referencias
ra el desarrollo y mantenimiento de un servi-
dor de mapas interactivo en el que se visuali- [1] R. Baeza-Yates, W. Cunto, U. Manber, and
zan datos georreferenciados resultantes de di- S. Wu. Proximity matching using fixed-
versos proyectos de investigación. Actualmen- queries trees. In Proc. 5th Combinatorial
te se está trabajando en el desarrollo de un Sis- Pattern Matching (CPM94), LNCS 807,
tema de Información Geográfica para el muni- pages 198–212, 1994.
cipio de la localidad de Caseros, Entre Rı́os,
[2] A. De Battista, A. Pascal, G. Gutierrez,
que permitirá georreferenciar la capa catastral
and N. Herrera. Un nuevo indice metrico-
de la localidad y asociar dicha base de datos
temporal: el historical fhqt. In Actas del
a la gestión de tasas municipales y posterior-
XIII Congreso Argentino de Ciencias de la
mente servirá como herramienta de planifica-
Computacion, Corrientes, Agentina, 2007.
ción para la gestión municipal.
[3] A. De Battista, A. Pascal, N. Herrera, and
G. Gutierrez. Metric-temporal access met-
4. Resultados Esperados hods. Journal of Computer Science &
Technology,, 10(2):54–60, 2010.
Se espera contar con métodos eficientes, [4] E. Chavez, G. Navarro, R. Baeza-Yates,
tanto en memoria principal como en memoria and J.L. Marroquin. Searching in me-
secundaria, para el procesamiento de consultas tric spaces. ACM Computing Surveys,
en el ámbito de bases de datos no tradiciona- 33(3):273–321, September 2001.
les. Esto incluye el diseño de ı́ndices, la defi-
nición de funciones de distancias adecuadas a [5] A. Pascal, A. De Battista, G. Gutierrez,
la problemática tratada, la definición de nuevas and N. Herrera. Indice metrico-temporal
consultas que sean de interés y el desarrollo de event-fhqt. In Actas del XIIII Congreso
aplicaciones en ámbitos reales de uso de los Argentino de Ciencias de la Computacion,
métodos desarrollados. La Rioja, Argentina, 2008.

[6] A. Pascal, De Battista, G. Gutierrez, and


N. Herrera. Procesamiento de consultas
5. Formación de Recursos metrico-temporales. In XXIII Conferen-
Humanos cia Latinoamericana de Informatica, pa-
ges 133–144, San Jose de Costa Rica,
2007.
El trabajo desarrollado hasta el momento
forma parte del desarrollo de dos Tesis de [7] Y. Rubner, C. Tomasi, and L.J. Guibas.
Maestrı́a en Ciencias de la Computación. Uno The earth movers distance as a metric for
de los integrantes del grupo está desarrollando image retrieval. International Journal of
su Tesis Doctoral sobre la temática de indexa- Computer Vision, 40:99–121, 2000.
ción en memoria secundaria de bases de datos
textuales, tema ı́ntimamente relacionado a las [8] A. Shahbahrami and D. B. Juurlink. Com-
lı́neas de estudio de este grupo. El grupo cuen- parison between color and texture features
ta en la actualidad con tres alumnos becarios for image retrieval. In Proceedings of the
que se están formando en estas temáticas y se 19th Annual Workshop on Circuits, Sys-
han desarrollado hasta la fecha cinco tesinas de tems and Signal Processing, 2008.
grado en el marco del proyecto.

____________________________________
PAGINA - 151 -

También podría gustarte