Está en la página 1de 7

4.

Seguimiento visual basado en el modelo Fusion


Visual Tracking Based on Model Fusion Modelo fusion es una estrategia esencial
para abordar los desafíos en el seguimiento de objetos visuales. Debido a la
impredecible aparición cambios de target y clusters de fondo, un único tipo de
característica o modelo no caben todas las situaciones. En este capítulo,
presentamos dos métodos representativos basados en el modelo fusion. El
primero es un método tradicional para centrarse en cómo combinar diferentes
características artesanales eficazmente y el segundo es un profundo método
basado en el aprendizaje que explora la atención información totalmente en un
seguimiento visual.1 2

4.1 Introducción
El modelo de apariencia juega un papel importante en el seguimiento visual, la
cual depende de su representación y descripción característica adoptó el modelo.
Aprobó el plan de representación característica generalmente adopta
características tales como el color7, la intensidad [ ] [21] [2] Información de textura,
para nombrar unos pocos. Función robusta es la garantía de un sistema robusto
de tracker. Incorporar algunas características de alto nivel, extracción de
características múltiples enfoques son necesarios, es decir, el estándar de tres
canales del espacio de color RGB, LBP descriptores, cernir los descriptores, el
nombre de color información [23, 25] o [1, 6] descriptores de cerdo. Sobre la base
de estas características, característica fusion gana popularidad en un seguimiento
visual.
Característica fusion se centra en integrar eficazmente diferentes tipos de
características, que pueden producir características robustas contra cambios del aspecto
objetivo. Aparte de la característica fusion, modelo fusion se adoptó también para otros
aspectos tales como multi-núcleo en fusión trackers [5, 24] basado en filtros de
correlación, multi-clasificador fusion en ensemble learning [11, 22] y así sucesivamente.
Estos métodos tratan de utilizar diferentes modelos para tratar diferentes problemas. Un
eficaz método de fusión generalmente necesita atención mecanismos viables, porque el
modelo inadecuado traería efectos negativos al final de rendimiento si queremos
simplemente combinar todos los modelos con igual ponderación. Algunos métodos para
calcular los pesos enfoque adaptable para la integración, mientras que otras utilizan
mecanismos de interruptor para seleccionar el mejor modelo entre los candidatos. Todos
estos algoritmos objetivo prestar atención a la parte más efectiva de todo el modelo.
Recientemente, las redes neuronales (DNNs profundo) han demostrado un
rendimiento excepcional y se han convertido en el estándar de facto en métodos de
seguimiento visual. Características de las capas superiores de DNNs codificar los
conceptos semánticos de categorías de objetos y son robustos a importantes cambios de
apariencia de destino, mientras que las características de las capas inferiores preservar
más detalles espaciales pero son sensibles a los drásticos cambios de apariencia. Por lo
tanto, integrar funciones tanto en las capas superior e inferior pueden maximizar sus
ventajas. Los datos de vídeo se conoce para demostrar una fuerte coherencia temporal,
donde la apariencia y la información de movimiento del destino raramente sufren
variaciones significativas dentro de fotogramas consecutivos. Redes neuronales
recurrentes (RNNs), que son eficaces en el tratamiento de datos secuenciales con
correlaciones, han encontrado aplicaciones limitadas en línea de seguimiento visual.
Además, la red neuronal convolutional (CNN) características pretrained en ImageNet se
adoptó para distinguir objetos genéricos y tratar a todos los canales por igual, lo que no es
apropiado para la tarea de seguimiento. Selección efectiva es capaz de poner de relieve
el destino y suprimir la respuesta del fondo. Otra manera de lograr esto es agregar la
atención a las funciones espaciales, que figura en la relación de inter-frame.

4.2 Seguimiento visual basado en combinación con Adaptive Multi-función


Aquí presentamos un algoritmo de rastreo rápido y efectivo basado en la STC tracker [31].
Basado en el marco bayesiano, el algoritmo propuesto se obtiene una correlación
estadística entre la región del seguimiento local de destino y su región circundante en
espacios característica de alto nivel. A continuación, un mapa de confianza se calcula en
función de la correlación estadística y las características de los objetos rastreados. Por
último, la ubicación de la meta se calcula basado en el mapa de confianza calculado. La
idea básica de obtener la confianza del mapa se presenta como sigue:

(4.1)

Donde indica el mapa de confianza estimado, indica las coordenadas del

objeto de seguimiento, las coordenadas de los alrededores, y o representa la


presencia de una imagen en el fotograma actual. Es el conjunto de características

definidas por . Denota los vectores de


características en la posición z, que representan el aspecto del objeto de seguimiento

utilizando las características de alto nivel. Soportes para la región circundante


de ubicación central en el fotograma actual.
Ecuación (4.1) los modelos de relaciones entre el modelo espacial, las características

y el mapa de confianza. Esta ecuación muestra que la probabilidad conjunta


puede ser transformada en el producto de dos probabilidades condicionales (es decir,

). Tomamos nota de que los modelos de

probabilidad condicional la correlación estadística y describe la probabilidad


previa que corresponde al modelo de apariencia circundante local. La importante y difícil

problema es aprender y actualizar la probabilidad condicional .


Modelo de apariencia: La probabilidad previa pretende representar la apariencia

modelo, es decir, . En este trabajo, denota la característica espacio


que representa el aspecto del fotograma de la imagen mediante tres características
diferentes. El aspecto modelo es un modelo colaborativo, que se define como
(4.2).

En Eq. (4.2), Demuestra la intensidad de la imagen, que es una características de

bajo nivel, denota la función de nombres de color que pretende describir la

información de color de primer plano y el fondo, y los histogramas de gradiente


(Hog) características que presenta la información de textura del marco de imagen. En este
trabajo, el gris, el color y la textura de características se utilizan para calcular tres mapas
de confianza, que se funden en un mapa de confianza final que se utiliza para el
seguimiento de objetos.

Modelo espacial: La correlación estadística es el t rmino utilizado


para construir un modelo espacial, que apunta a aprovechar plenamente la información de
contexto de objeto y el fondo y para manejar oclusiones parciales. En este trabajo, la

función de probabilidad condicional puede ser definido como , en

la cual es una función que representa las relaciones entre el destino y la ubicación
de un local que rodea la ubicación . Para obtener un mapa de confianza eficaz, el

aprendizaje de la función en un eficiente es importante. Por lo tanto, volvemos a


escribir el EQ. (4.1):

(4.3)

Donde indica el operador de convolución. Sobre la base de la teoría del


procesamiento de señal, el cálculo del mapa de confianza en Eq. (4.3) Puede ser
transformado en el dominio de la frecuencia, que puede ser solucionado eficientemente
por la transformación rápida de Fourier (FFT) método:
(4.4)

Donde representa el elemento-wise producto, denota el operador FFT, y


significa el operador FFT inversa. Así, el modelo espacial puede ser eficientemente
adquirida sobre la base de EQ. (4.4).
Modelo de aprendizaje: En este trabajo, adoptamos una gaussiana-como función
para modelar nuestra esperada confianza mapa para aprender el modelo espacial y
facilitar el seguimiento de objetos. La función de espera se define como:

(4.5)

Donde es un parámetro de escala, es un parámetro shape y b es una constante


de normalización. Esta función toma un valor de 1 para el centro y suave decae a 0 por
los alrededores, lo cual es mucho más suave que el clasificador binario tradicional. Así,
podemos obtener tres modelos espaciales con respecto a tres diferentes canales
utilizando la función de confianza de modelado (eq. (4.5)) Y FFT como sigue:

(4.6)

Modelo Fusion
Esquema de actualización: Para capturar la apariencia cambia de objeto y el fondo,
el modelo de representación necesita ser actualizado en una línea de moda. En este

trabajo actualizamos el modelo espacial por , donde es


un parámetro de aprendizaje. Para mantener una representación efectiva modelo,
podemos explotar todos los fotogramas anteriores para actualizar el modelo espacial, que
simplemente se llevó a cabo en el dominio de la frecuencia:

(4.7).
Mapas de confianza: Para llevar a cabo el seguimiento, calculamos la confianza
mapas en diferentes canales para el siguiente fotograma utilizando el modelo actualizado

y las características del siguiente cuadro. El conjunto de características está

definido por . Los tres mapas de confianza se


calculan como sigue:

(4.8)

(4.9)
A continuación, un mapa de confianza definitivo se obtiene mediante la

incorporación de mapas individuales de confianza con adaptive pesos (). Por


último, el seguimiento de la ubicación de destino puede ser determinado sobre la base de

la mayor respuesta en el último mapa de confianza.


Adaptive Pesos: Aquí, podemos explotar un método de ponderación de aprendizaje
adaptativo para fusionar diferentes mapas de confianza para el proceso de seguimiento.
Algunos estudios ya han demostrado el buen rendimiento de usar pesas adaptables para

detectar y localizar [26, 29]. En primer lugar, debemos inicializar el vector de peso en el
primer fotograma (). En la t-th marco, después de obtener la ubicación

del objeto de seguimiento, la fusión de diferentes mapas de


confianza puede formularse como el siguiente problema de regresión:

(4.10)
(4.11)

Fig. 4.1 la eficacia del peso esquema de aprendizaje

También podría gustarte