Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen - descriptores locales han sido utilizados ampliamente en categorías, utilizando un conjunto de imágenes de entrenamiento, y luego una etapa de
sistemas CBIR, donde su robustez a intensas transformaciones geométricas y clasificación, donde se clasifican las imágenes en la base de datos.
fotométricas permite la identificación de un objeto de destino / imagen con gran En lo ultimo, aprendizaje, clasificación y
fiabilidad. Sin embargo, debido a su poder de discriminación excesiva, su aplicación a
presentación de los resultados se realizará de forma interactiva, con la
la recuperación de categorías complejas es un reto. La introducción de la técnica de
participación del usuario, ya menudo involucra el llamado
diccionarios visuales (también conocido como diccionario de términos visuales) es un
relevancia de retroalimentación, como se muestra en la Figura 1.
paso importante hacia la conciliación entre la robustez de descriptores locales y la
flexibilidad de la generalización necesaria por consultas complejas. Como beneficio
adicional, llegamos a ser capaz de emplear técnicas de recuperación avanzadas que
imagen consulta
hasta ahora estaban disponibles sólo para los datos textuales.
YO. yo INTRODUCCIÓN
palabras clave: sinonimia, polisemia, inconsistente generalización / especialización, cuales el primero es el enorme volumen de datos a procesar, ya que la información
etc. multimedia es mucho más masivo que los datos textuales. Sin embargo, el mayor
obstáculo es creado por la información multimedia no está compuesta por fáciles de
Una alternativa interesante es el uso de la recuperación de información identificar unidades semánticas (como palabras en el texto), la creación de la
basada en el contenido ( CBIR), que explota la información extraída llamada brecha semántica, es decir, la gran divergencia entre la forma de codificar
automáticamente del contenido multimedia. técnicas basadas en el contenido los datos (con píxeles, marcos, muestras, etc.) y cómo los usuarios quieren
tienen la enorme ventaja de pasar por alto la necesidad de palabras clave u recuperar y clasificar (usando conceptos complejos como “persona”, “vegetación
otros metadatos asociados anotación explícita a los documentos. tropical” o “vacaciones con la tía Rita”).
hay un aprendizaje previo de la semántica clasificación de la multimedia está mediada por descriptores,
11011010001
En el contexto de la recuperación y clasificación de imágenes,
00111110101
01001011101
11001100010
los documentos pueden describirse ya sea por un solo descriptor o un conjunto de
descriptores. En el primer caso, cuando un solo descriptor debe capturar toda la
01000010101
11010101000
Figura 2. El funcionamiento básicos de un sistema CBIR - descriptores se utilizan para descriptores locales se calculan sobre las características locales: regiones,
mediar en la operación de recuperación. Una función de disimilitud entre descriptores se bordes o puntos de interés. La repetibilidad es la cualidad más importante para una
utiliza para establecer la disimilitud entre las imágenes.
técnica característica locales: incluso si la imagen sufre deformaciones geométricas
o fotométricas, o si se observa la escena desde otro punto de vista, las “mismas”
Las dos principales dificultades que enfrenta cada sistema basado en el contenido son:
características debe ser encontrado. En términos prácticos, esto significa que las
regiones, las fronteras y los puntos extraídos deben haber sufrido la misma
• Cómo sintetizar la información contenida en la imagen en un
transformación geométrica de la imagen, con el fin de caer sobre los mismos objetos.
descriptor (o un conjunto de descriptores) que pueden utilizarse para
representar fielmente las características visuales, estéticas o
semánticas deseado que el sistema será más adelante buscando;
Puntos de interés (POI), que son los puntos de la imagen que puede ser situado
de forma única, son las características más populares, debido a su robustez. Una vez
• Cómo crear un criterio de disimilitud entre los descriptores (o
que se detecta un punto, un pequeño parche alrededor del punto se utiliza para
conjuntos de descriptores), que emula correctamente el modelo
calcular el descriptor. Es habitual asociar una escala y una orientación al punto,
mental del usuario de similitud (visual, estético o semántica).
covariante a cualquier deformación de la imagen podría sufrir, a fin de obtener la
invariancia descriptor.
73
detectores se basan en la localización de “manchas”, es decir, regiones relativamente Base de datos de Encontrar el punto de Describir Índice de todos
[13]), que encuentra los puntos a través de extremos locales de una función de
diferencia-de-gaussianas y los describen utilizando histogramas de gradientes. El
descriptor utilizado en SIFT es considerado uno de los más robustos en la
{62, 4, 27, 28, 126, ...} Coincidencia
literatura [14], pero es muy alta dimensión. Una alternativa dimensionalidad menor La consistencia descriptor
resultados refinados geométrica resultados El bruto
es SURF ( Acelerarse características robustas, [ 15]) - que también propone un
detector de PDI.
74
Aquí, sin embargo, sólo estamos interesados en los métodos de interés fuerte), la fiabilidad del sistema se puede mejorar mediante la aplicación de las
práctico en nuestro contexto específico. Estos métodos deben: restricciones de consistencia geométricas. La idea consiste en examinar la lista de
las imágenes obtenidas por el algoritmo de recuento de votos y comprobar, para
• Un buen desempeño para datos de alta dimensión, que presenta un buen cada imagen, si los partidos son compatibles con la transformación geométrica se
compromiso entre la precisión y la velocidad; esperaba. Los partidos que no siguen la tendencia general se retiran, los votos se
• Se adaptan bien a un almacenamiento secundario-memoria, que en la cuentan y la lista se vuelve a puntuar.
práctica significa que unos accesos aleatorios deben realizarse;
Hay varias maneras diferentes para llevar a cabo la consistencia geométrica,
• Idealmente, el índice generado debe por dinámico, es decir, permitir la pero todos caen en dos estrategias generales: (1) la estimación de la
inserción de datos y la eliminación sin mucho coste o degradación del transformación geométrica mediante la aplicación de un (generalmente robusta)
75
objeto, este poder de discriminación es muy bienvenido, pero en la búsqueda de categorías elección más común encontrado en la literatura es una combinación de una etapa de
complejas se convierte en un obstáculo, ya que la capacidad de generalizar a continuación, reducción de dimensionalidad mediante PCA ( Análisis de componentes principales) y
se convierte en esencial. luego un agrupamiento usando el k-medias
Una posible solución a este problema es la técnica de diccionarios algoritmo con la distancia euclidiana. Esta opción típica (PCA
visuales. El diccionario visual no es más que una representación que considera + k-medias), elección, sin embargo también ha sido criticado [36]. De hecho, esta
la (alta-dimensional) espacio descriptor, que se dividió en múltiples regiones, solución está lejos de ser suficiente, no sólo debido a la incapacidad de k-medias para
por lo general mediante el empleo de no supervisado- hacer frente a los espacios de alta dimensión, sino también porque el criterio de
aprendizaje técnicas, me gusta optimalidad de PCA no se corresponde con las necesidades de clusterización, ya
agrupación. Cada región se convierte entonces en una “palabra” visual del que escoge los componentes que maximizan la varianza global de los datos, no
diccionario. La idea es que las diferentes regiones del espacio de la los que conservan mejor las agrupaciones locales.
descripción se convierten en asociados a los diferentes conceptos semánticos,
por ejemplo, vegetación, rocas, cielo claro, nubes, esquinas de edificios, etc.
Es importante destacar que la asociación entre la palabra visual y su La mayoría de los métodos de clusterización pertenecientes al estado-de- la técnica
semántica está latente; no hay necesidad de atribuir explícitamente no han sido concebidos teniendo las necesidades de la construcción visual diccionario en
significados a las palabras (Figura 4). cuenta. Pocos, si alguno, se adaptan los métodos para datos de alta dimensión, grandes
bases de datos y un gran número de grupos que se encuentran.
grupo 1
Retrato del
Figura 4. parches de imagen asociados a los decriptors que pertenecen a una palabra visual
típica. Esta “palabra” parece estar fuertemente relacionada con la “ventana en un edificio” concepto.
No existe una asociación explícita, sin embargo, entre las palabras y los conceptos de la técnica visual
diccionario: la semántica de las palabras permanecen latentes. (Imagen de [32], reproducido con
permiso).
palabras que contiene. La descripción condensada utilizado en este nivel más alto Figura 5. CBIR el uso de bolsas de características - Las etapas del proceso son (1) la extracción de
puede ser, por ejemplo, un histograma o simplemente un conjunto de las palabras los descriptores locales; (2) cuantificación del espacio descriptor para crear el diccionario visual; (3)
de la imagen contiene. La ventaja es doble: la descripción más rugosa se adapta Descripción de los documentos visuales como histogramas de palabras visuales resumida; (4) el uso
del resumen
mejor a las operaciones que implican la semántica complejos; y la burthen
Descripción para responder a las consultas de los usuarios.
computacional de la recuperación en línea se alivia, ya que ahora opera en una
descripción resumida, en lugar de un gran número de descriptores locales Métodos basados en agrupación subespacio pueden ayudar a aliviar el problema de
considerados individualmente. la agrupación de datos de alta dimensión, pero no están adaptados a la obtención de un
gran número de grupos [37] - [38]. Una posible solución a este problema, es a agruparse
Al parecer, los diccionarios de características se diseñaron primero por Ma y jerárquicamente (obtener un pequeño número de grupos y luego agruparse de nuevo
Manjunath en su sistema de recuperación de imágenes Netra [33], que utiliza libros cada uno de los grupos obtenidos).
de códigos a color de índice, textura y forma descriptores de manera eficiente. La
idea fue revisado por Fournier et al. en el sistema de RETIN [34]. Estos sistemas se
basan en los descriptores globales. Los diccionarios visuales de
V. B AGS DE F Y ARACTERÍSTICAS segundo ÁS ALLÁ
local
descriptores, como se describe aquí, aparecen en Sivic y Zisserman en su Además de moderar el poder de discriminación de los descriptores
vídeo Google enfoque [35]. locales, los diccionarios visuales introducen el
En la actualidad, la construcción de un buen diccionario es el mayor desafío posibilidad de llevar a las técnicas CBIR hasta ahora restringido al universo
cuando se emplea la técnica. La creación del diccionario requiere la de recuperación textual. De hecho, la adaptación de esas técnicas se
cuantificación del espacio de descripción, que puede ser obtenido mediante un vuelve sencillo, mediante la sustitución de las palabras de texto por el
algoritmo de agrupamiento. los “palabras” visual metáfora.
76
Así, los métodos de texto de recuperación de clásicos como la pLSA [39] o el LDA [40] [6] N. Boujemaa, H. y H. Houissa Bischof (eds.). WP5: Estado del Arte
Informe: Procesamiento de Imágenes y Video en Multimedia entendimiento.
se han adaptado a las bases de datos de imagen [41] - [42].
Reporte técnico. INRIA - Imedia, Francia, septiembre de 2004. [7] C. Harris, y M.
Stephens. “Una esquina combinado y el borde detector'',
Uno de los préstamos de mayor éxito desde el universo de recuperación en Vision Conference alvey, pp. 147-- - 151. 1988.
en texto ha sido la técnica de bolsas de palabras [8] K. Mikolajczyk. punto de interés invariante detección afín a
(Que tiene en cuenta los documentos textuales simplemente como conjuntos de palabras, transformaciones. Tesis doctoral. Institut National Polytechnique de
Grenoble. 2002.
haciendo caso omiso de cualquier estructura inherente). El equivalente en el universo CBIR se
[9] K. Mikolajczyk y C. Schmid. “La indexación basada en puntos de interés invariante de escala”,
ha llamado bolsas de características, bolsas de características visuales, bolsas de palabras
en Proc. del 8 Int. Conf. en Visión por Computador.
visuales o simplemente bolsas de palabras, y lo que es equivalente, se considera simplemente
Vancouver, Canadá, pp. 525-531. 2001. [10] K. Mikolajczyk y C. Schmid. “Un detector de
como documentos visuales conjuntos de palabras visuales. Esta técnica simplifica en gran punto de interés invariante afín” en Proc. de la séptima Conf Europea. en Visión por
medida la descripción de los documentos, que se convierte en un histograma de las palabras Computador.
(visual) que contiene (figura 5). Copenhague, Dinamarca, vol. I, pp. 128-142. 2002. [11] D. Lowe. “Reconocimiento de Objetos de
las características locales invariante en escala”, en Proc. de la séptima Int. Conf. en Visión por
Computador. vol. 2, p. 1150. de septiembre de 20-25, 1999. IEEE, 1999. [12] J. Matas, O. Chum, M.
De la misma manera las bolsas de texto de palabras se han extendido a tener en
Urban, y T. Pajdla. “Robusto estéreo amplia línea de base desde las regiones extremales
cuenta algo de la estructura del documento (como pares de palabras, frases, etc.) las
máximamente estables”, en Proc. de la Conferencia de Visión Artificial británica, pp. 384-396. 2002. [13] D.
bolsas plásticas de características también se ha ampliado con el fin de capturar Lowe. Características de la imagen distintiva Keypoints invariante en escala.
algunas de las estructura espacial que se pierde cuando el documento está
representado simplemente como una “bolsa” de la visual de las palabras. Métodos
propuestos han tenido en cuenta la distribución espacial de las características [43]; En t. Journal of Computer Vision, vol. 60, N. 2, pp. 91-110. 2004. [14] K. Mikolajczyk y C.
Schmid. Una evaluación del rendimiento de descriptores locales.
meditadas pares de características espacialmente adyacentes (una metáfora de
IEEE Trans. el análisis de patrones y máquina
“frases” visuales), y se consideran descripciones multiescala de las imágenes [44].
Inteligencia, vol. 27, n. 10, pp. 1615-1630. IEEE, octubre de 2005 [15] H. Bay, A. Ess, T.
Tuytelaars, Luc Van Gool. “SURF: acelerarse características robustas”. Visión por Computador y
Interpretación de Imágenes (CVIU), vol. 110, no. 3, pp. 346-359. 2008. [16] T. Tuytelaars, K.
Mikolajczyk, detectores de características invariantes locales: una encuesta. Fundamentos y
Tendencias de Gráficos y Visión por Ordenador.
VI. UNA PLICACIONES
vol. 3, no. 3, pp.177-280. 2008. [17] P. Hough. Método y medios para reconocer patrones
descriptores locales han tenido un gran éxito para los problemas relacionados
con la recuperación de una imagen objetivo u objeto de. aplicaciones relacionadas complejos. NOSOTROS
Patente n. 3.069.654. 18 de diciembre de 1962. [18] D. Ballard. Generalizando la transformada
son objeto de adaptación y el seguimiento [11] [13] y casi duplicados de detección
de Hough para detectar formas arbitrarias. Reconocimiento de patrones, vol. 13, n. 2, pp. 111-122.
de imagen y vídeo bases de datos [27] [28]. Ambas aplicaciones se han
Elsevier,
beneficiado de las mejoras de rendimiento traídos por el uso de los diccionarios 1981.
visuales. [19] C. Schmid y R. Mohr. Invariantes Greyvalue locales para la recuperación de imágenes. IEEE
Transactions on Análisis de patrones y la máquina de Inteligencia, vol. 19, n. 5, pp. 530-535.
Más recientemente, los descriptores locales se han empleado en tareas que IEEE, mayo de 1997. [20] R. Bellman. Adaptive Control de Procesos: una visita guiada. Princeton
[22] R. Weber, H.-J. Schek y S. Blott. “Un análisis cuantitativo y estudio sobre los resultados de
R EFERENCIAS Similitud-Métodos de búsqueda en un espacio de dimensión alta”, en Proc. del Int 24Rd.
Conf. sobre Bases de datos muy grandes, Nueva York, NY, EE.UU., Agosto 24-27 de
[1] R. Torres y A. Falcão. basado en el contenido de recuperación de imágenes: Teoría y aplicaciones. Revista
1998. Morgan Kaufmann, 1998. [23] H. Samet. Fundamentos de datos multidimensional y
de Informática Teórica y Aplicada, vol. 13, no.
Métricas
2, pp. 161-185. 2006.
[2] E. Chang, B. Li, G. Wu y K. Goh. “El aprendizaje estadístico para la Recuperación de
Estructuras. Morgan Kaufmann, 2006 [24] G. Shakhnarovich, T. y P. Darrell Indyk (eds.). Vecino
Información Visual eficaz” en Proc. del 2003 Int. Conf. en Procesamiento de Imágenes (ICIP), vol.
más cercano
3, pp. III.609-612. Barcelona, España, Septiembre 14-17 de 2003. IEEE, 2003. [3] M. Cord,
Métodos de aprendizaje y Visión: teoría y práctica. The MIT Press, 2006. [25] P. Zezula,
PH. Gosselin y S. Philipp-Foliguet. estocástico exploración y el aprendizaje activo para la
G. Amato, V. Dohnal y M. Batko. búsqueda de similitud: la
recuperación de la imagen. Imagen y Visión Informática, vol. 25, n. 1, pp. 14-23. Elsevier, de
enero de 2007. [4] F. Mindru, T. Tuytelaars, L. van Gool y T. lunas. Momento in- variantes
enfoque espacio métrico. Springer, 2006. [26] R. Fagin, R. Kumar y D. Sivakumar.
para su reconocimiento según el cambio de punto de vista y la iluminación.
“Similitud búsquedas eficiente y clas-ficación a través de la agregación de rango”, en Proc.
2003 de la ACM SIGMOD Int. Conf. sobre Gestión de Datos, pp. 301-312, San Diego, CA,
EE.UU., Junio 09-12, 2003. ACM, 2003. [27] H. Lejsek, F. Ásmundsson, B. Jónsson y L.
Visión por Computador y Interpretación de Imágenes, vol. 94, n. 1-3, pp. 3-27. Elsevier, entre abril y
Amsaleg. NV-árbol: Un índice basado en disco aproximado eficiente para la búsqueda en
junio de 2004. [5] TRECVID - TREC vídeo Evaluación de recuperación. Instituto Nacional de
colecciones muy grandes de alta dimensión. IEEE Trans. el análisis de patrones e
inteligencia de máquina. pre-impresión. IEEE 2008.
Estándares y Tecnología (NIST), Gaithersburg, MD, EE.UU..
http://www-nlpir.nist.gov/projects/trecvid/
77
[28] E. Valle, M. Cord, y S. Philipp-Foliguet. “Indexación descriptor de alta dimensión para [36] F. Jurie, B. Triggs. “Creación de libros de códigos eficientes para el reconocimiento visual”, en IEEE
grandes bases de datos multimedia”, en Proc. 17a ACM Conf. de Información y Gestión Int. Conf. en Visión por Computador, vol. 1, pp. 604-
del Conocimiento. pp. 739- 610. 2005.
748, 2008. [37] L. Parsons, E. Haque y H. Liu. agrupación subespacio de datos de alta dimensión: una
[29] MA Fischler y RC Bolles. Random consenso de muestra: un paradigma para el montaje con revisión. SIGKDD Explor. Newslett. 6 (1), pp 90-.
aplicaciones a análisis de imágenes y cartografía automatizada modelo. Communications 105. 2004.
of the ACM, 24 (6): 381-395. [38] C. Bouveyron, S. Girard y C. Schmid. agrupamiento de alta dimensión de datos. Computacional
1981.
de Estadística y Análisis de Datos, vol. 52, pp. 502-519. 2007. [39] T. Hofmann.
[30] H. Jegou, M. Douze, y C. Schmid. “Hamming incrustación y débil coherencia geométrica para la “Probabilístico indexación semántica latente”, Proc. del
búsqueda de imágenes a gran escala”, en Proc. 10ª Conf Europea. en Visión por Computador, parte
I. pp. 304-317. 2008. [31] E. Valle, D. Picard y M. Cord. “La consistencia geométrica 22a Int Anual. SIGIR Conf. de Investigación y Desarrollo en la Recuperación de
Comprobación de Local-Based descriptor de recuperación de documentos” en ACM DocEng Información (SIGIR-99). 1999 [40] D. Blei, A. Ng, y M. Jordan. asignación de Dirichlet latente. Avances
2009. En prensa. [32] N. Batista, A. Lopes, A. Araújo. “Detección de edificios históricos en las en Neuronales Sistemas de Procesamiento. 2002 [41] J. Sivic, A. Zisserman. “Video Google:
fotografías usando bolso-de-Keypoints” en SIBGRAPI 2009. En prensa. [33] WY. Ma, B. Manjunath. un enfoque de recuperación de texto a objeto coincidente en vídeos”, en Proc. de la Novena
Netra: Una caja de herramientas para navegar grande IEEE Int. Conf. en Visión por Computador (ICCV), octubre 13-16 de 2003. IEEE, 2003. [42] D.
Larlus y F. Jurie. “vocabularios mezcla latente de la categorización de objetos” en Conferencia
bases de datos. Los sistemas multimedia, vol. 7, n. 3, pp. 184-198, 1999. [34] J. Fournier, M. de Visión Artificial británica. 2006.
Cord, S. Philipp-Foliguet. RETIN: Una indexación y recuperación de imágenes sistema basado
en contenido. Modelo de Análisis y Aplicaciones Diario, vol. 4 (2/3), pp. 153-173, 2001. [35] J.
[43] M. Marszalek, C. Schmid. “Ponderación espacial para la bolsa de características” en
Sivic, A. Zisserman. “Video Google: un enfoque de recuperación de texto a objeto coincidente en Proc. Conf de la IEEE Computer Society. en Visión por Computador y Reconocimiento de Patrones, vol.
el vídeo” en Proc. 9 de IEEE Int. Conf. en Visión por Computador, pp. 1470-1477, 2003. 2, pp. 2118-2125. 2006. [44] S. Lazebnik, C. Schmid y J. Ponce. “Más allá de las bolsas de
características: juego de pirámide espacial para el reconocimiento de categorías de escenas
naturales”, en la Conferencia IEEE Computer Society en Visión por Computador y Reconocimiento de
Patrones, vol. 2, pp. 2169-217., 2006.
78