Documentos de Académico
Documentos de Profesional
Documentos de Cultura
4.1 Introducción
El modelo de apariencia juega un papel importante en el seguimiento visual, la
cual depende de su representación y descripción característica adoptó el modelo.
Aprobó el plan de representación característica generalmente adopta
características tales como el color7, la intensidad [ ] [21] [2] Información de textura,
para nombrar unos pocos. Función robusta es la garantía de un sistema robusto
de tracker. Incorporar algunas características de alto nivel, extracción de
características múltiples enfoques son necesarios, es decir, el estándar de tres
canales del espacio de color RGB, LBP descriptores, cernir los descriptores, el
nombre de color información [23, 25] o [1, 6] descriptores de cerdo. Sobre la base
de estas características, característica fusion gana popularidad en un seguimiento
visual.
Característica fusion se centra en integrar eficazmente diferentes tipos de
características, que pueden producir características robustas contra cambios del aspecto
objetivo. Aparte de la característica fusion, modelo fusion se adoptó también para otros
aspectos tales como multi-núcleo en fusión trackers [5, 24] basado en filtros de
correlación, multi-clasificador fusion en ensemble learning [11, 22] y así sucesivamente.
Estos métodos tratan de utilizar diferentes modelos para tratar diferentes problemas. Un
eficaz método de fusión generalmente necesita atención mecanismos viables, porque el
modelo inadecuado traería efectos negativos al final de rendimiento si queremos
simplemente combinar todos los modelos con igual ponderación. Algunos métodos para
calcular los pesos enfoque adaptable para la integración, mientras que otras utilizan
mecanismos de interruptor para seleccionar el mejor modelo entre los candidatos. Todos
estos algoritmos objetivo prestar atención a la parte más efectiva de todo el modelo.
Recientemente, las redes neuronales (DNNs profundo) han demostrado un
rendimiento excepcional y se han convertido en el estándar de facto en métodos de
seguimiento visual. Características de las capas superiores de DNNs codificar los
conceptos semánticos de categorías de objetos y son robustos a importantes cambios de
apariencia de destino, mientras que las características de las capas inferiores preservar
más detalles espaciales pero son sensibles a los drásticos cambios de apariencia. Por lo
tanto, integrar funciones tanto en las capas superior e inferior pueden maximizar sus
ventajas. Los datos de vídeo se conoce para demostrar una fuerte coherencia temporal,
donde la apariencia y la información de movimiento del destino raramente sufren
variaciones significativas dentro de fotogramas consecutivos. Redes neuronales
recurrentes (RNNs), que son eficaces en el tratamiento de datos secuenciales con
correlaciones, han encontrado aplicaciones limitadas en línea de seguimiento visual.
Además, la red neuronal convolutional (CNN) características pretrained en ImageNet se
adoptó para distinguir objetos genéricos y tratar a todos los canales por igual, lo que no es
apropiado para la tarea de seguimiento. Selección efectiva es capaz de poner de relieve
el destino y suprimir la respuesta del fondo. Otra manera de lograr esto es agregar la
atención a las funciones espaciales, que figura en la relación de inter-frame.
(4.1)
la cual es una función que representa las relaciones entre el destino y la ubicación
de un local que rodea la ubicación . Para obtener un mapa de confianza eficaz, el
(4.3)
(4.5)
(4.6)
Modelo Fusion
Esquema de actualización: Para capturar la apariencia cambia de objeto y el fondo,
el modelo de representación necesita ser actualizado en una línea de moda. En este
(4.7).
Mapas de confianza: Para llevar a cabo el seguimiento, calculamos la confianza
mapas en diferentes canales para el siguiente fotograma utilizando el modelo actualizado
(4.8)
(4.9)
A continuación, un mapa de confianza definitivo se obtiene mediante la
detectar y localizar [26, 29]. En primer lugar, debemos inicializar el vector de peso en el
primer fotograma (). En la t-th marco, después de obtener la ubicación
(4.10)
(4.11)