Tutorial de Paper

Tutoriales de la XXII Simposio Brasileño sobre Computación Gráfica y Procesamiento de Imágenes
Técnicas Avanzadas en CBIR

Los descriptores locales, diccionarios visuales y bolsas de características
Eduardo Valle Cable de Matthieu
Universidad de computación Instituto Departamento de Bases de Datos y Aprendizaje Automático

Estatal de Campinas LIP6, Universidad de París 6
Campinas - SP, Brasil París, Francia
mail@eduardovalle.com Matthieu.Cord@lip6.fr
Resumen - descriptores locales han sido utilizados ampliamente en categorías, utilizando un conjunto de imágenes de entrenamiento, y luego una etapa de
sistemas CBIR, donde su robustez a intensas transformaciones geométricas y clasificación, donde se clasifican las imágenes en la base de datos.
fotométricas permite la identificación de un objeto de destino / imagen con gran En lo ultimo, aprendizaje, clasificación y
fiabilidad. Sin embargo, debido a su poder de discriminación excesiva, su aplicación a
presentación de los resultados se realizará de forma interactiva, con la
la recuperación de categorías complejas es un reto. La introducción de la técnica de
participación del usuario, ya menudo involucra el llamado
diccionarios visuales (también conocido como diccionario de términos visuales) es un
relevancia de retroalimentación, como se muestra en la Figura 1.
paso importante hacia la conciliación entre la robustez de descriptores locales y la
flexibilidad de la generalización necesaria por consultas complejas. Como beneficio
adicional, llegamos a ser capaz de emplear técnicas de recuperación avanzadas que
imagen consulta
hasta ahora estaban disponibles sólo para los datos textuales.
Palabras Clave: CBIR; recuperación de información; descriptores locales; diccionarios visuales;

bolsas de características.
YO. yo INTRODUCCIÓN
En este tutorial vamos a abordar los componentes conceptuales de un

marco de gran alcance, que permite realizar la clasificación semántica y
recuperación de imágenes y vídeos, usando una técnica de diccionarios
visuales y palabras visuales.
Recepción multimedia y clasificación a menudo se resuelven mediante la

asociación de palabras clave u otra anotación textual a los datos, ya sea a mano, ya
sea por el uso de texto relacionado (por ejemplo, subtítulos, descripciones
Figura 1. la recuperación interactiva para categorías semánticas - una imagen de muestra de,
alternativas, subtítulos, texto cerca de una imagen en una página, etc.). Sin embargo, el usuario busca la categoría “retratos”; el concepto se aprende
esta solución está lejos de ser ideal: anotación manual es costoso, lento y, a menudo, de forma interactiva, a través de anotaciones positivos y negativos.
incoherente; el texto relacionado, además de no estar siempre disponible, es

imprecisa y escasa. Además, existen las dificultades inherentes a la utilización de Los sistemas basados en contenido, se enfrentan a muchos desafíos, entre los
palabras clave: sinonimia, polisemia, inconsistente generalización / especialización, cuales el primero es el enorme volumen de datos a procesar, ya que la información
etc. multimedia es mucho más masivo que los datos textuales. Sin embargo, el mayor
obstáculo es creado por la información multimedia no está compuesta por fáciles de
Una alternativa interesante es el uso de la recuperación de información identificar unidades semánticas (como palabras en el texto), la creación de la
basada en el contenido ( CBIR), que explota la información extraída llamada brecha semántica, es decir, la gran divergencia entre la forma de codificar
automáticamente del contenido multimedia. técnicas basadas en el contenido los datos (con píxeles, marcos, muestras, etc.) y cómo los usuarios quieren
tienen la enorme ventaja de pasar por alto la necesidad de palabras clave u recuperar y clasificar (usando conceptos complejos como “persona”, “vegetación
otros metadatos asociados anotación explícita a los documentos. tropical” o “vacaciones con la tía Rita”).
Consideramos dos contextos aplicativos: semántico

clasificación y recuperación de información interactiva. En el primer caso, Para tratar de superar esas dificultades, indexación, recuperación y
hay un aprendizaje previo de la semántica clasificación de la multimedia está mediada por descriptores,
978-0-7695-3815-0 / 09 $ 25.00 © 2009 IEEE

IEEE DOI
DOI 72
10.1109 / SIBGRAPI-Tutorials.2009.14
que son una más compacto y (esperemos) semánticamente más rica apartar las imágenes que (utilizando el modelo de metal) considerar
representación de los datos. Descriptores aparecen en una gran variedad de extraña, pero se junten los que consideramos apropiado. Por cierto, es
formas: de color y textura histogramas, momentos invariantes, coeficientes de interesante hacer notar que el burthen de obtener este equilibrio puede ser
Fourier, chorros, planos de gradiente, etc. A menudo aparecen como vectores, compartida por el descriptor y la disimilitud en radicalmente diferente
que son con frecuencia de alta dimensional. Para establecer la similitud / dimensiones,
disimilitud entre documentos, sus descriptores se comparan utilizando una de acuerdo a las opciones de diseño del sistema. Para mencionar dos extremos,
función de distancia o diferencia [1]. algunos sistemas escoger tener descriptores muy simple, y utilizar las funciones de
disimilitud complejo capaz de reconocer los patrones de [2] - [3]; otros ponen la
Un sistema CBIR tiene una fase fuera de línea, cuando los documentos tendrán sus mayor parte de la información de inteligencia sobre los propios descriptores, y el
descripciones computarizada y los descriptores serán almacenados en una base de uso de criterios de disimilitud muy simples [4].
datos y, muy probablemente, indexado. Cuando descripción e indización están listos, el
usuario puede presentar una consulta al sistema, en lo que se llama el fase en línea. A pesar de las dificultades, las tareas de reconocimiento visual son cada vez
más y más atrevido. Si bien, los primeros trabajos sobre la búsqueda semántica se
La separación entre las fases en línea y fuera de línea es más conceptual que el centraron en las categorías estereotipadas (por ejemplo, escenas de la puesta del sol,
concreto, todo dependiendo del sistema. Si es estática, a continuación, la separación cebras, paisajes de sabana ...), en las últimas ediciones de la campaña internacional
es percibida concretamente por el usuario, ya que para poder añadir nuevas TRECVID [5] las categorías para clasificar tuvo gran variabilidad visual (por ejemplo,
imágenes, una especie de “reconstrucción” del descriptor de la base de datos / index flores) , e incluso se incluye la representación de conceptos abstractos (por ejemplo,
debe ser emitido. Sin embargo, en un sistema dinámico, las imágenes pueden ser el entretenimiento, la tristeza, el arte ...). El último desafío es responder a consultas de
insertados o eliminados durante o entre consultas (y la base de datos / índice los usuarios muy alto nivel (categorías semánticas generales como “imágenes de
actualizado), sin más preámbulos. Europa”, criterios estéticos difusos como “pinturas me gusta”).
El proceso completo se ilustra en la Figura 2.
Base de datos de Describir cada Almacenar los

A. Los descriptores locales
imágenes imagen descriptores
11011010001
En el contexto de la recuperación y clasificación de imágenes,
00111110101
01001011101
11001100010
los documentos pueden describirse ya sea por un solo descriptor o un conjunto de
descriptores. En el primer caso, cuando un solo descriptor debe capturar toda la
01000010101
11010101000
información de la imagen, decimos que es una descriptor global. En el último caso,

De F línea
los descriptores se asocian a diferentes características de la imagen (regiones,
bordes o pequeños parches alrededor de los puntos de interés) y se llaman descriptores
11011010000
locales. descriptores locales se han propuesto inicialmente para resolver problemas
Δ ()
00101110101
01001011101
11011100010
01001010101
en la visión por ordenador, desde el punto coincidente en visión estereoscópica,
01010101100
Comparación de para la detección de objetos [6]. Son muy robusto para oclusiones, recorte y
la imagen de búsqueda Describir la descriptores de consulta con
imagen de búsqueda storeddescriptors transformaciones geométricas.
Mostrar las imágenes

En línea más similares
Figura 2. El funcionamiento básicos de un sistema CBIR - descriptores se utilizan para descriptores locales se calculan sobre las características locales: regiones,
mediar en la operación de recuperación. Una función de disimilitud entre descriptores se bordes o puntos de interés. La repetibilidad es la cualidad más importante para una
utiliza para establecer la disimilitud entre las imágenes.
técnica característica locales: incluso si la imagen sufre deformaciones geométricas
o fotométricas, o si se observa la escena desde otro punto de vista, las “mismas”
Las dos principales dificultades que enfrenta cada sistema basado en el contenido son:
características debe ser encontrado. En términos prácticos, esto significa que las
regiones, las fronteras y los puntos extraídos deben haber sufrido la misma
• Cómo sintetizar la información contenida en la imagen en un
transformación geométrica de la imagen, con el fin de caer sobre los mismos objetos.
descriptor (o un conjunto de descriptores) que pueden utilizarse para
representar fielmente las características visuales, estéticas o
semánticas deseado que el sistema será más adelante buscando;
Puntos de interés (POI), que son los puntos de la imagen que puede ser situado
de forma única, son las características más populares, debido a su robustez. Una vez
• Cómo crear un criterio de disimilitud entre los descriptores (o
que se detecta un punto, un pequeño parche alrededor del punto se utiliza para
conjuntos de descriptores), que emula correctamente el modelo
calcular el descriptor. Es habitual asociar una escala y una orientación al punto,
mental del usuario de similitud (visual, estético o semántica).
covariante a cualquier deformación de la imagen podría sufrir, a fin de obtener la
invariancia descriptor.
Lo mismo se aplica para los desiderata el descriptor y la disimilitud: el

menor costo posible; y un delicado equilibrio entre los poderes analíticos y Algunos detectores de POI se basan en la localización de las esquinas,
sintéticos, con el fin de ser capaz de como el Harris [7] y Hessian [8] técnicas, y su escala- invariante [9] y las
versiones afines invariante [10]. otro PdI
73
detectores se basan en la localización de “manchas”, es decir, regiones relativamente Base de datos de Encontrar el punto de Describir Índice de todos
imágenes interés de cada imagen cada PDI los descriptores

homogéneos, como los basados en gaussianas Diferencia-de- [11]. Un detector de
característica no basado en PdI que es digno de mención por su robustez es MSER
...
[12], que se basa en el concepto de regiones que permanecen “estable” sobre {63, 4, 25, 30, 128, ...}
...
grandes rangos de umbrales de binarización.
{63, 4, 25, 30, 128, ...}
De Florida ine
Algunas técnicas proponen tanto el detector de características y el descriptor.
Describir cada PDI
Uno de los más utilizados es SIFT ( Escala de funciones invariantes transforma, [ 11] imagen consulta Encontrar el punto de interés
[13]), que encuentra los puntos a través de extremos locales de una función de
diferencia-de-gaussianas y los describen utilizando histogramas de gradientes. El
descriptor utilizado en SIFT es considerado uno de los más robustos en la
{62, 4, 27, 28, 126, ...} Coincidencia
literatura [14], pero es muy alta dimensión. Una alternativa dimensionalidad menor La consistencia descriptor
resultados refinados geométrica resultados El bruto
es SURF ( Acelerarse características robustas, [ 15]) - que también propone un
detector de PDI.
Un estudio comparativo para los detectores de POI se ha presentado En línea

en [16] y un estudio comparativo de descriptores locales se ha presentado
Figura 3. El funcionamiento de un sistema CBIR base de la votación sobre descriptores locales. Esta
en [14]. arquitectura del sistema es muy eficaz para la búsqueda de objetivos, pero
Con el fin de establecer la similitud entre las imágenes, un sistema basado no puede hacer frente a la búsqueda categoría semántica.
local descriptor tiene que comparar conjuntos de descriptores. Esta es una

operación potencialmente compleja, pero la mayoría de los sistemas de adoptar
un criterio de recuento de votos llano, que tiene el mérito de ser simple y de II. S CALABILITY yo TEMAS
evitar la comparación por pares cara entre la imagen de consulta y cada imagen
La robustez de los sistemas basados local descriptor tiene un precio, por
en la base de datos. La técnica funciona así: cada descriptor individual en la
la multiplicidad de descriptores trae una penalización de rendimiento, ahora
consulta se hace juego con sus descriptores más similares en toda la base de
que cientos, incluso miles de partidos, hay que encontrar el fin de procesar una
datos. Cada emparejados califican de descriptores para la imagen a la que
sola consulta.
pertenece. Luego contamos los votos que cada imagen recibida y utilizar este
Para responder a las consultas de los usuarios, los descriptores deben coincidir, y esto
número como un criterio de similitud (Figura 3).
se hace con algún tipo de búsqueda de similitud: como la búsqueda kNN ( k más cercano de
búsqueda Vecinos) o búsqueda por rango. Por muy pequeñas bases de datos, esas
operaciones pueden llevarse a cabo mediante la comparación secuencial, donde se
El método es robusto debido a que los descriptores son muchas: si algunos se ponen
compara cada elemento de la base de datos para la consulta, y mantenemos los más
demasiado distorsionada o se pierden por completo, lo suficientemente permanecerá para
similares. Desafortunadamente,
garantizar buenos resultados. Incluso si algunos se emparejan de forma incorrecta, dando
esta solución de fuerza bruta no es
votos para las imágenes equivocadas, sólo una imagen correctamente identificados recibirá
factible en nuestro contexto, donde las bases de datos son muy grandes.
una cantidad significativa de votos. El proceso se puede hacer aún más robusto mediante
La alternativa es usar un sistema de indexación, con el fin de acelerar la
la adición de limitaciones de consistencia geométricas que eliminan partidos más espurios
búsqueda. Es muy difícil, sin embargo, que efectivamente descriptores índice de
(más sobre esto en § III).
multimedia, desde la conocida maldición de dimensionalidad obstaculiza el
funcionamiento de esquemas de indexación como dimensionalidad crece [20] -
El más antiguo conocido del uso de un algoritmo de conteo de votos para el
[22]. Típicamente, durante más de 10 dimensiones, será imposible realizar exacto búsqueda
reconocimiento de la visión por ordenador aparece en el método de Hough para la
de similitud más rápido que el método secuencial, y uno se ve obligado a recurrir a
identificación de la línea [17], más tarde generalizado de formas arbitrarias [18]. Los
métodos aproximados, donde la precisión se comercia-off para la velocidad.
elementos esenciales de la arquitectura descrita anteriormente aparecieron en Schmid
et al. [19]: el uso de la PDI, descriptores locales calculadas en torno a esos puntos, un
criterio de disimilitud basado en un algoritmo de recuento de votos, y una etapa de
búsqueda de similitud es un tema importante de la investigación, que
comprobación de la coherencia de los partidos antes de la votación, recuento final y la
encuentra muchas aplicaciones además de coincidir descriptor, y no es
clasificación de los resultados. El desarrollo de estas ideas, Lowe propuso un esquema
sorprendente existe una amplia literatura sobre el tema. Para una introducción y
eficiente para encontrar puntos de interés mediante las diferencias de gaussianas-OF-
el estado de la técnica en la materia se remite al lector a [23]. Otras referencias
de la imagen, y luego un descriptor muy robusto calculado sobre un parche en torno a
son integrales [24] (que explora las aplicaciones de búsqueda de similitud en la
esos puntos. A continuación, utiliza un algoritmo de votación para localizar objetos en
visión por ordenador) y [25] (que se especializa en la familia de métodos
las escenas [11].
métricas).
74
Aquí, sin embargo, sólo estamos interesados en los métodos de interés fuerte), la fiabilidad del sistema se puede mejorar mediante la aplicación de las
práctico en nuestro contexto específico. Estos métodos deben: restricciones de consistencia geométricas. La idea consiste en examinar la lista de
las imágenes obtenidas por el algoritmo de recuento de votos y comprobar, para
• Un buen desempeño para datos de alta dimensión, que presenta un buen cada imagen, si los partidos son compatibles con la transformación geométrica se
compromiso entre la precisión y la velocidad; esperaba. Los partidos que no siguen la tendencia general se retiran, los votos se
• Se adaptan bien a un almacenamiento secundario-memoria, que en la cuentan y la lista se vuelve a puntuar.
práctica significa que unos accesos aleatorios deben realizarse;
Hay varias maneras diferentes para llevar a cabo la consistencia geométrica,
• Idealmente, el índice generado debe por dinámico, es decir, permitir la pero todos caen en dos estrategias generales: (1) la estimación de la
inserción de datos y la eliminación sin mucho coste o degradación del transformación geométrica mediante la aplicación de un (generalmente robusta)
rendimiento. estimador, y la eliminación de los partidos incompatibles con que la transformación;

(2) el cálculo de una distribución estadística de algunos parámetros de
Sorprendentemente algunos métodos son capaces de lograr esos requisitos: transformación geométrica (rotación, escala) de cada partido, y la eliminación de los
muchos métodos suponer la aplicación en la memoria principal (y por lo tanto, de partidos que se desvían demasiado de la modalidad de la que la distribución.
acceso aleatorio barato durante todo el índice), otros métodos tienen tiempos de
construcción prohibitivamente alto índice (con una forzada reconstrucción si el
índice cambia demasiado), y así.
La primera estrategia es más preciso, pero también más compleja de
implementar. Con el fin de aplicarlo, uno tiene que elegir el tipo de modelo de
LSH, o localidad sensible hash, utiliza localidad- transformación cuyos parámetros se estima (por ejemplo,
preservación de las funciones de hash para indexar los datos. El procedimiento usa varias
cambio de escala, transformación de semejanza, afín
tablas hash a la vez, para mejorar la fiabilidad [24].
transformación, etc.) y el estimador utilizado. Dado que se espera que muchos valores
Otro método interesante es MEDRANK, que proyecta los datos en atípicos, el estimador tiene que ser robusto.
varias líneas rectas al azar. La posición unidimensional en la línea se utiliza Una combinación habitual es usar el estimador RANSAC [29]. El RANSAC
para indexar los datos [26]. La NV-Árbol (anteriormente conocido como (Consenso muestra aleatoria) es una técnica de máxima probabilidad que es
PVS) es una mejora en MEDRANK, y utiliza la segmentación y robusto a la presencia de una gran fracción de los valores atípicos. Funciona
re-proyección en líneas rectas. Los puntos se agrupan juntos sólo si son mediante la selección de (al azar) un pequeño conjunto de muestras y la
simultáneamente cerca en múltiples líneas rectas [27]. estimación de los parámetros del modelo de ellos. El modelo estimado por lo que
se utiliza para contar los inliers y los valores atípicos. El proceso se itera varias
Multicurvas es un esquema concebido especialmente para la indexación de los
veces, seleccionando potencialmente diferentes muestras en cada iteración. El
descriptores de alta dimensión. La técnica, basado en la utilización simultánea de curvas
modelo que genera la mayor fracción de inliers se mantiene. La idea detrás de
de llenado espaciales moderada dimensiones, tiene como ventajas principales la
RANSAC es que, si pasa a seleccionar una muestra compuesta exclusivamente
capacidad de manejar datos de alta dimensión, para permitir el fácil mantenimiento de
por inliers, entonces hay una buena probabilidad de que el modelo estimado será
los índices, y de adaptarse bien a un almacenamiento secundario, por lo que proporciona
compatible con todos los demás inliers.
escalabilidad a enormes bases de datos [28].
Un patrón común de estos métodos es el uso de múltiples subíndices.

La segunda estrategia es menos precisa, pero mucho más simple. Con el fin
Conceptualmente lo que sucede es que un sub-consulta se realiza en cada uno de
de aplicarlo, lo primero que escoja los parámetros de la transformación vamos a
esos subíndices, y el método a continuación, agrega los resultados. Intuitivamente, la
inspeccionar - la rotación y la escala es la más común -y luego estudiar el
idea es aumentar las posibilidades de una búsqueda bien sucedido mediante el uso de
comportamiento estadístico de ese parámetro. En [30], un histograma se crea con
varias estructuras paralelas.
las rotaciones observadas entre descriptores emparejados, y sólo los partidos
correspondientes al pico más alto (el modo) en ese histograma se mantienen. En
[13], el Hough generalizada transformada de [18] se utiliza para encontrar si hay
III. do OHERENCIA do ONSTRAINTS una acumulación coherente de los partidos en el espacio de parámetros de 4
dimensiones compuesta por escala, rotación y posición 2D.
Descriptores pueden ser emparejados de forma incorrecta, ya sea debido a fallas
de invariancia del algoritmo descripción, o debido a errores de aproximación de la
búsqueda de similitud. En cualquiera de los casos, los descriptores no coincidentes
Un estudio comparativo entre las dos estrategias, para los contextos
votarán por el documento incorrecto.
donde se espera un gran número de desajustes, se presenta en [31].
Si el número de descriptores de consulta es grande y la fracción de

coincidencias incorrectas es pequeño, la incorrecta
documentos recibirán significativamente menos votos que la correcta. De IV. V isual re ICTIONARIES
otra manera, la fiabilidad de la votación Que los descriptores locales son mucho más preciso y exigente de
mecanismo se ve comprometida.
descriptores globales es a la vez una ventaja y un inconveniente. Cuando se
Si una fracción significativa de partidos se sabe que es incorrecta (por ejemplo,
busca una imagen o meta específica
si se conocen las distorsiones de imagen a ser muy
75
objeto, este poder de discriminación es muy bienvenido, pero en la búsqueda de categorías elección más común encontrado en la literatura es una combinación de una etapa de
complejas se convierte en un obstáculo, ya que la capacidad de generalizar a continuación, reducción de dimensionalidad mediante PCA ( Análisis de componentes principales) y
se convierte en esencial. luego un agrupamiento usando el k-medias
Una posible solución a este problema es la técnica de diccionarios algoritmo con la distancia euclidiana. Esta opción típica (PCA
visuales. El diccionario visual no es más que una representación que considera + k-medias), elección, sin embargo también ha sido criticado [36]. De hecho, esta
la (alta-dimensional) espacio descriptor, que se dividió en múltiples regiones, solución está lejos de ser suficiente, no sólo debido a la incapacidad de k-medias para
por lo general mediante el empleo de no supervisado- hacer frente a los espacios de alta dimensión, sino también porque el criterio de
aprendizaje técnicas, me gusta optimalidad de PCA no se corresponde con las necesidades de clusterización, ya
agrupación. Cada región se convierte entonces en una “palabra” visual del que escoge los componentes que maximizan la varianza global de los datos, no
diccionario. La idea es que las diferentes regiones del espacio de la los que conservan mejor las agrupaciones locales.
descripción se convierten en asociados a los diferentes conceptos semánticos,
por ejemplo, vegetación, rocas, cielo claro, nubes, esquinas de edificios, etc.
Es importante destacar que la asociación entre la palabra visual y su La mayoría de los métodos de clusterización pertenecientes al estado-de- la técnica
semántica está latente; no hay necesidad de atribuir explícitamente no han sido concebidos teniendo las necesidades de la construcción visual diccionario en
significados a las palabras (Figura 4). cuenta. Pocos, si alguno, se adaptan los métodos para datos de alta dimensión, grandes
bases de datos y un gran número de grupos que se encuentran.
grupo 1
Retrato del
Figura 4. parches de imagen asociados a los decriptors que pertenecen a una palabra visual
típica. Esta “palabra” parece estar fuertemente relacionada con la “ventana en un edificio” concepto.
No existe una asociación explícita, sin embargo, entre las palabras y los conceptos de la técnica visual
diccionario: la semántica de las palabras permanecen latentes. (Imagen de [32], reproducido con
permiso).
Una vez que se obtiene el diccionario, la descripción de la imagen se

simplifica, puesto que ya no se basa en los descriptores individuales, sino en las 4 3
palabras que contiene. La descripción condensada utilizado en este nivel más alto Figura 5. CBIR el uso de bolsas de características - Las etapas del proceso son (1) la extracción de
puede ser, por ejemplo, un histograma o simplemente un conjunto de las palabras los descriptores locales; (2) cuantificación del espacio descriptor para crear el diccionario visual; (3)
de la imagen contiene. La ventaja es doble: la descripción más rugosa se adapta Descripción de los documentos visuales como histogramas de palabras visuales resumida; (4) el uso
del resumen
mejor a las operaciones que implican la semántica complejos; y la burthen
Descripción para responder a las consultas de los usuarios.
computacional de la recuperación en línea se alivia, ya que ahora opera en una
descripción resumida, en lugar de un gran número de descriptores locales Métodos basados en agrupación subespacio pueden ayudar a aliviar el problema de
considerados individualmente. la agrupación de datos de alta dimensión, pero no están adaptados a la obtención de un
gran número de grupos [37] - [38]. Una posible solución a este problema, es a agruparse
Al parecer, los diccionarios de características se diseñaron primero por Ma y jerárquicamente (obtener un pequeño número de grupos y luego agruparse de nuevo
Manjunath en su sistema de recuperación de imágenes Netra [33], que utiliza libros cada uno de los grupos obtenidos).
de códigos a color de índice, textura y forma descriptores de manera eficiente. La
idea fue revisado por Fournier et al. en el sistema de RETIN [34]. Estos sistemas se
basan en los descriptores globales. Los diccionarios visuales de
V. B AGS DE F Y ARACTERÍSTICAS segundo ÁS ALLÁ
local
descriptores, como se describe aquí, aparecen en Sivic y Zisserman en su Además de moderar el poder de discriminación de los descriptores
vídeo Google enfoque [35]. locales, los diccionarios visuales introducen el
En la actualidad, la construcción de un buen diccionario es el mayor desafío posibilidad de llevar a las técnicas CBIR hasta ahora restringido al universo
cuando se emplea la técnica. La creación del diccionario requiere la de recuperación textual. De hecho, la adaptación de esas técnicas se
cuantificación del espacio de descripción, que puede ser obtenido mediante un vuelve sencillo, mediante la sustitución de las palabras de texto por el
algoritmo de agrupamiento. los “palabras” visual metáfora.
76
Así, los métodos de texto de recuperación de clásicos como la pLSA [39] o el LDA [40] [6] N. Boujemaa, H. y H. Houissa Bischof (eds.). WP5: Estado del Arte
Informe: Procesamiento de Imágenes y Video en Multimedia entendimiento.
se han adaptado a las bases de datos de imagen [41] - [42].
Reporte técnico. INRIA - Imedia, Francia, septiembre de 2004. [7] C. Harris, y M.
Stephens. “Una esquina combinado y el borde detector'',
Uno de los préstamos de mayor éxito desde el universo de recuperación en Vision Conference alvey, pp. 147-- - 151. 1988.
en texto ha sido la técnica de bolsas de palabras [8] K. Mikolajczyk. punto de interés invariante detección afín a
(Que tiene en cuenta los documentos textuales simplemente como conjuntos de palabras, transformaciones. Tesis doctoral. Institut National Polytechnique de
Grenoble. 2002.
haciendo caso omiso de cualquier estructura inherente). El equivalente en el universo CBIR se
[9] K. Mikolajczyk y C. Schmid. “La indexación basada en puntos de interés invariante de escala”,
ha llamado bolsas de características, bolsas de características visuales, bolsas de palabras
en Proc. del 8 Int. Conf. en Visión por Computador.
visuales o simplemente bolsas de palabras, y lo que es equivalente, se considera simplemente
Vancouver, Canadá, pp. 525-531. 2001. [10] K. Mikolajczyk y C. Schmid. “Un detector de
como documentos visuales conjuntos de palabras visuales. Esta técnica simplifica en gran punto de interés invariante afín” en Proc. de la séptima Conf Europea. en Visión por
medida la descripción de los documentos, que se convierte en un histograma de las palabras Computador.
(visual) que contiene (figura 5). Copenhague, Dinamarca, vol. I, pp. 128-142. 2002. [11] D. Lowe. “Reconocimiento de Objetos de
las características locales invariante en escala”, en Proc. de la séptima Int. Conf. en Visión por
Computador. vol. 2, p. 1150. de septiembre de 20-25, 1999. IEEE, 1999. [12] J. Matas, O. Chum, M.
De la misma manera las bolsas de texto de palabras se han extendido a tener en
Urban, y T. Pajdla. “Robusto estéreo amplia línea de base desde las regiones extremales
cuenta algo de la estructura del documento (como pares de palabras, frases, etc.) las
máximamente estables”, en Proc. de la Conferencia de Visión Artificial británica, pp. 384-396. 2002. [13] D.
bolsas plásticas de características también se ha ampliado con el fin de capturar Lowe. Características de la imagen distintiva Keypoints invariante en escala.
algunas de las estructura espacial que se pierde cuando el documento está
representado simplemente como una “bolsa” de la visual de las palabras. Métodos
propuestos han tenido en cuenta la distribución espacial de las características [43]; En t. Journal of Computer Vision, vol. 60, N. 2, pp. 91-110. 2004. [14] K. Mikolajczyk y C.
Schmid. Una evaluación del rendimiento de descriptores locales.
meditadas pares de características espacialmente adyacentes (una metáfora de
IEEE Trans. el análisis de patrones y máquina
“frases” visuales), y se consideran descripciones multiescala de las imágenes [44].
Inteligencia, vol. 27, n. 10, pp. 1615-1630. IEEE, octubre de 2005 [15] H. Bay, A. Ess, T.
Tuytelaars, Luc Van Gool. “SURF: acelerarse características robustas”. Visión por Computador y
Interpretación de Imágenes (CVIU), vol. 110, no. 3, pp. 346-359. 2008. [16] T. Tuytelaars, K.
Mikolajczyk, detectores de características invariantes locales: una encuesta. Fundamentos y
Tendencias de Gráficos y Visión por Ordenador.
VI. UNA PLICACIONES
vol. 3, no. 3, pp.177-280. 2008. [17] P. Hough. Método y medios para reconocer patrones
descriptores locales han tenido un gran éxito para los problemas relacionados
con la recuperación de una imagen objetivo u objeto de. aplicaciones relacionadas complejos. NOSOTROS
Patente n. 3.069.654. 18 de diciembre de 1962. [18] D. Ballard. Generalizando la transformada
son objeto de adaptación y el seguimiento [11] [13] y casi duplicados de detección
de Hough para detectar formas arbitrarias. Reconocimiento de patrones, vol. 13, n. 2, pp. 111-122.
de imagen y vídeo bases de datos [27] [28]. Ambas aplicaciones se han
Elsevier,
beneficiado de las mejoras de rendimiento traídos por el uso de los diccionarios 1981.
visuales. [19] C. Schmid y R. Mohr. Invariantes Greyvalue locales para la recuperación de imágenes. IEEE
Transactions on Análisis de patrones y la máquina de Inteligencia, vol. 19, n. 5, pp. 530-535.
Más recientemente, los descriptores locales se han empleado en tareas que IEEE, mayo de 1997. [20] R. Bellman. Adaptive Control de Procesos: una visita guiada. Princeton
implican categorías complejas. Mediante el uso de la técnica visual diccionario, las

University Press, 1961. [21] C. Böhm, S. Berchtold, y D. Keim. La búsqueda en espacios de
posibles aplicaciones se han ampliado en gran medida y abarcar la categoría de
alta dimensión: estructuras de índices para mejorar el rendimiento de bases de datos
recuperación de bases de datos de imagen, categoría de clasificación / detección de multimedia. ACM Computing Surveys (CSUR), vol. 33, no. 3, pp. 322-
bancos de imágenes y tareas de reconocimiento en las bases de datos de vídeo [32]
[44]. 373. septiembre de 2001.
[22] R. Weber, H.-J. Schek y S. Blott. “Un análisis cuantitativo y estudio sobre los resultados de
R EFERENCIAS Similitud-Métodos de búsqueda en un espacio de dimensión alta”, en Proc. del Int 24Rd.
Conf. sobre Bases de datos muy grandes, Nueva York, NY, EE.UU., Agosto 24-27 de
[1] R. Torres y A. Falcão. basado en el contenido de recuperación de imágenes: Teoría y aplicaciones. Revista
1998. Morgan Kaufmann, 1998. [23] H. Samet. Fundamentos de datos multidimensional y
de Informática Teórica y Aplicada, vol. 13, no.
Métricas
2, pp. 161-185. 2006.
[2] E. Chang, B. Li, G. Wu y K. Goh. “El aprendizaje estadístico para la Recuperación de
Estructuras. Morgan Kaufmann, 2006 [24] G. Shakhnarovich, T. y P. Darrell Indyk (eds.). Vecino
Información Visual eficaz” en Proc. del 2003 Int. Conf. en Procesamiento de Imágenes (ICIP), vol.
más cercano
3, pp. III.609-612. Barcelona, España, Septiembre 14-17 de 2003. IEEE, 2003. [3] M. Cord,
Métodos de aprendizaje y Visión: teoría y práctica. The MIT Press, 2006. [25] P. Zezula,
PH. Gosselin y S. Philipp-Foliguet. estocástico exploración y el aprendizaje activo para la
G. Amato, V. Dohnal y M. Batko. búsqueda de similitud: la
recuperación de la imagen. Imagen y Visión Informática, vol. 25, n. 1, pp. 14-23. Elsevier, de
enero de 2007. [4] F. Mindru, T. Tuytelaars, L. van Gool y T. lunas. Momento invariantes
enfoque espacio métrico. Springer, 2006. [26] R. Fagin, R. Kumar y D. Sivakumar.
para su reconocimiento según el cambio de punto de vista y la iluminación.
“Similitud búsquedas eficiente y clas-ficación a través de la agregación de rango”, en Proc.
2003 de la ACM SIGMOD Int. Conf. sobre Gestión de Datos, pp. 301-312, San Diego, CA,
EE.UU., Junio 09-12, 2003. ACM, 2003. [27] H. Lejsek, F. Ásmundsson, B. Jónsson y L.
Visión por Computador y Interpretación de Imágenes, vol. 94, n. 1-3, pp. 3-27. Elsevier, entre abril y
Amsaleg. NV-árbol: Un índice basado en disco aproximado eficiente para la búsqueda en
junio de 2004. [5] TRECVID - TREC vídeo Evaluación de recuperación. Instituto Nacional de
colecciones muy grandes de alta dimensión. IEEE Trans. el análisis de patrones e
inteligencia de máquina. pre-impresión. IEEE 2008.
Estándares y Tecnología (NIST), Gaithersburg, MD, EE.UU..
http://www-nlpir.nist.gov/projects/trecvid/
77
[28] E. Valle, M. Cord, y S. Philipp-Foliguet. “Indexación descriptor de alta dimensión para [36] F. Jurie, B. Triggs. “Creación de libros de códigos eficientes para el reconocimiento visual”, en IEEE
grandes bases de datos multimedia”, en Proc. 17a ACM Conf. de Información y Gestión Int. Conf. en Visión por Computador, vol. 1, pp. 604-
del Conocimiento. pp. 739- 610. 2005.
748, 2008. [37] L. Parsons, E. Haque y H. Liu. agrupación subespacio de datos de alta dimensión: una
[29] MA Fischler y RC Bolles. Random consenso de muestra: un paradigma para el montaje con revisión. SIGKDD Explor. Newslett. 6 (1), pp 90-.
aplicaciones a análisis de imágenes y cartografía automatizada modelo. Communications 105. 2004.
of the ACM, 24 (6): 381-395. [38] C. Bouveyron, S. Girard y C. Schmid. agrupamiento de alta dimensión de datos. Computacional
1981.
de Estadística y Análisis de Datos, vol. 52, pp. 502-519. 2007. [39] T. Hofmann.
[30] H. Jegou, M. Douze, y C. Schmid. “Hamming incrustación y débil coherencia geométrica para la “Probabilístico indexación semántica latente”, Proc. del
búsqueda de imágenes a gran escala”, en Proc. 10ª Conf Europea. en Visión por Computador, parte
I. pp. 304-317. 2008. [31] E. Valle, D. Picard y M. Cord. “La consistencia geométrica 22a Int Anual. SIGIR Conf. de Investigación y Desarrollo en la Recuperación de
Comprobación de Local-Based descriptor de recuperación de documentos” en ACM DocEng Información (SIGIR-99). 1999 [40] D. Blei, A. Ng, y M. Jordan. asignación de Dirichlet latente. Avances
2009. En prensa. [32] N. Batista, A. Lopes, A. Araújo. “Detección de edificios históricos en las en Neuronales Sistemas de Procesamiento. 2002 [41] J. Sivic, A. Zisserman. “Video Google:
fotografías usando bolso-de-Keypoints” en SIBGRAPI 2009. En prensa. [33] WY. Ma, B. Manjunath. un enfoque de recuperación de texto a objeto coincidente en vídeos”, en Proc. de la Novena
Netra: Una caja de herramientas para navegar grande IEEE Int. Conf. en Visión por Computador (ICCV), octubre 13-16 de 2003. IEEE, 2003. [42] D.
Larlus y F. Jurie. “vocabularios mezcla latente de la categorización de objetos” en Conferencia
bases de datos. Los sistemas multimedia, vol. 7, n. 3, pp. 184-198, 1999. [34] J. Fournier, M. de Visión Artificial británica. 2006.
Cord, S. Philipp-Foliguet. RETIN: Una indexación y recuperación de imágenes sistema basado
en contenido. Modelo de Análisis y Aplicaciones Diario, vol. 4 (2/3), pp. 153-173, 2001. [35] J.
[43] M. Marszalek, C. Schmid. “Ponderación espacial para la bolsa de características” en
Sivic, A. Zisserman. “Video Google: un enfoque de recuperación de texto a objeto coincidente en Proc. Conf de la IEEE Computer Society. en Visión por Computador y Reconocimiento de Patrones, vol.
el vídeo” en Proc. 9 de IEEE Int. Conf. en Visión por Computador, pp. 1470-1477, 2003. 2, pp. 2118-2125. 2006. [44] S. Lazebnik, C. Schmid y J. Ponce. “Más allá de las bolsas de
características: juego de pirámide espacial para el reconocimiento de categorías de escenas
naturales”, en la Conferencia IEEE Computer Society en Visión por Computador y Reconocimiento de
Patrones, vol. 2, pp. 2169-217., 2006.
78

Tutorial de Paper

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tutorial de Paper

Cargado por

Copyright:

Formatos disponibles

Tutoriales de la XXII Simposio Brasileño sobre Computación Gráfica y Procesamiento de Imágenes

Técnicas Avanzadas en CBIR

Eduardo Valle Cable de Matthieu

Universidad de computación Instituto Departamento de Bases de Datos y Aprendizaje Automático

Palabras Clave: CBIR; recuperación de información; descriptores locales; diccionarios visuales;

En este tutorial vamos a abordar los componentes conceptuales de un

Recepción multimedia y clasificación a menudo se resuelven mediante la

incoherente; el texto relacionado, además de no estar siempre disponible, es

Consideramos dos contextos aplicativos: semántico

978-0-7695-3815-0 / 09 $ 25.00 © 2009 IEEE

El proceso completo se ilustra en la Figura 2.

Base de datos de Describir cada Almacenar los

información de la imagen, decimos que es una descriptor global. En el último caso,

Mostrar las imágenes

Lo mismo se aplica para los desiderata el descriptor y la disimilitud: el

imágenes interés de cada imagen cada PDI los descriptores

Un estudio comparativo para los detectores de POI se ha presentado En línea

local descriptor tiene que comparar conjuntos de descriptores. Esta es una

rendimiento. estimador, y la eliminación de los partidos incompatibles con que la transformación;

Un patrón común de estos métodos es el uso de múltiples subíndices.

Si el número de descriptores de consulta es grande y la fracción de

Una vez que se obtiene el diccionario, la descripción de la imagen se

implican categorías complejas. Mediante el uso de la técnica visual diccionario, las

También podría gustarte