Fast Forest Fire Smoke Detection Using MVMNet ESPAÑOL

Sistemas basados en el conocimiento
Volumen 241, 6 de abril de 2022, 108219
Detección rápida de humo de incendios forestales mediante MVMNet

YaowenHuun, 1, Sobre Jialei un, 1, Guoxiong Zhouun, Sobre de Aibin un, Weiwei Caiun, Kun Guoun, Sobre Yahui b,
Sobre Liujun c
Mostrar más
Outline Compartir Cite
https://doi.org/10.1016/j.knosys.2022.108219 Obtener derechos y contenido

Bajo una licencia Creative Commons Acceso abierto
Artículo anterior Siguiente
Palabras clave
Detección de humo de incendios forestales; Módulo de mecanismo de conversión-atención de valor;
multiorientado; Softpool-pirámide espacial agrupación; Mixto-NMS
1. Introducción
Los bosques son un componente importante del ecosistema de la Tierra, y su protección es responsabilidad de
todos [1] Un incendio forestal es un desastre natural incontrolado y sin restricciones que amenaza las tierras
boscosas [2] En los últimos años, los incendios forestales se han vuelto más frecuentes, y su alcance de daño ha
aumentado cada año [3]. Los incendios forestales destruyen millones de hectáreas de bosque cada año y causan
una serie de desastres ambientales, que incluyen principalmente el calentamiento global, y los gobiernos han
gastado decenas de miles de millones de dólares en la lucha contra estos incendios [4]. Los incendios forestales no
solo dañan el ecosistema, sino que también representan un peligro potencial para la supervivencia y el desarrollo
humanos [5]. Los incendios forestales son impredecibles y generalmente ocurren en áreas forestales aisladas [6]. Si
un incendio forestal no se detecta a tiempo, puede propagarse fácilmente, causando así un mayor daño al
ecosistema y planteando un mayor desafío a los esfuerzos de extinción de incendios [7]. El ardor es la causa más
común de incendios forestales. El humo es el primer signo de un incendio forestal. Es fundamental acortar el
tiempo de respuesta de la lucha contra los incendios forestales y la gravedad de los daños causados por los
incendios forestales mediante la detección efectiva del humo a tiempo y la identificación de la región donde se
produce el humo.
Varios problemas deben abordarse de inmediato en la escena actual de detección de humo de incendio forestal
(como se muestra en la Fig. 1): (1) Humo inclinado. Cuando ocurre un incendio forestal, el humo tiende a inclinarse
debido a los impactos del medio ambiente circundante y el clima, lo que revela información útil como la dirección
del viento y la ubicación de la fuente del incendio. Anteriormente, la caja de detección horizontal que se empleaba
para la detección de objetivos pasaba por alto información útil y carecía de consistencia. (2) Detección errónea de
objetos que son similares al humo. En el complicado y cambiante entorno forestal, hay muchos fenómenos
similares al humo, como nubes en movimiento en el cielo y niebla en la atmósfera. Estos fenómenos tienen
características similares al humo, y las redes tradicionales de extracción de características luchan por detectar las
diferencias. (3) El humo está demasiado lejos. Cuando el punto de combustión está lejos de la cámara, la confianza
de la caja de detección es baja y se filtra, lo que aumenta la dificultad de detección de humo.
Para manejar el problema de la inclinación del humo, L Tian et al. propusieron un marco de detección que consiste
en un módulo de mejora de imagen y un módulo de reutilización de características densas para abordar las
características densamente dispuestas de los objetos en escenarios de teledetección [8]. En el entorno de la
teledetección, W Huang et al. sugirieron una red piramidal de fusión de características a escala cruzada y
emplearon una caja de detección multiorientada para adaptarse a objetivos como los barcos inclinados [9]. El
método de detección multiorientada de la escena de detección remota nos ha inspirado, y la caja de detección
multiorientada se adapta bien a las peculiaridades del humo que vuela en el viento. Como resultado, proponemos
un método de detección multiorientado en el que la caja objetivo puede describir adaptativamente la dirección del
humo y tiene relevancia de referencia para determinar la dirección de la fuente de incendio. Utilizamos el método
PolyIOU para calcular el grado de superposición entre las cajas de anclaje para adaptarnos a la detección
multiorientada y crear el conjunto de datos de detección multiorientada de incendios forestales.
Descargar : Descargar imagen de alta resolución (356KB) Descargar : Descargar imagen a tamaño completo
Figura 1. Factores de interferencia de detección de humo.
L He et al. propusieron un módulo de mecanismo de atención que integra la atención espacial y canaliza la atención
para abordar el problema de la detección falsa de elementos similares al humo en climas nublados [10]. D Sheng et
al. propusieron la sobresegmentación de píxeles para ayudar a la red neuronal convolucional a extraer las
características del humo y reducir la probabilidad de detección falsa [11]. Aunque estos métodos son simples y
efectivos, tienen dificultades para superar el problema de la pérdida de información durante el proceso de
extracción de características, y aún así resultan en detecciones falsas en fondos complicados, como nubes en el cielo
que se identifican erróneamente como humo. Como consecuencia, proponemos un Soft-SPP, que puede aliviar el
problema de la pérdida de información de características causada por los tamaños de entrada inconsistentes de las
imágenes de humo al tiempo que preserva más información de características al sustituir MaxPool con operaciones
de SoftPool. A continuación, se propone un mecanismo de conversión-atención de valor (VAM), que emplea la
información de la característica de color y textura de la imagen de humo al tiempo que mejora la distribución del
peso de la información de textura basada en la estrategia de asignación de peso conjunta en las direcciones
horizontal y vertical.
E Zhao et al. introdujeron un método de caja de detección adaptativa para limitar la ocurrencia de detección
perdida en tareas de detección de humo de incendios forestales, lo que aumentó sustancialmente la velocidad de
detección de Faster-RCNN y redujo la ocurrencia de detección perdida [12]. Este método, sin embargo, tiene
limitaciones y solo es apropiado para modelos de detección de objetivos de dos etapas. Basándonos en Skew-NMS y
DIoU-NMS, rediseñamos el método Mixed-NMS en este documento para superar el problema de la detección
perdida causada por humo similar a largas distancias. Skew-NMS considera la información de ángulo y umbral en
la detección multiorientada del objetivo de humo para determinar la información de la caja de anclaje, mientras
que DIoU-NMS considera el área de superposición y la distancia del punto central. Cuando el punto de combustión
está lejos de la cámara o varias nubes de humo están cerca una de la otra, la combinación de estos dos métodos
NMS puede adaptarse mejor a la forma real del humo y resolver el problema de la detección perdida.
Las contribuciones de este documento se resumen de la siguiente manera:
(1) Se propone un método de detección multiorientado para describir el estado direccional del humo. Además, para
dar cabida a la detección multiorientada, creamos el conjunto de datos de detección multiorientada de incendios
forestales.
(2) Se propone un Soft-SPP. Este módulo sustituye las tres operaciones paralelas de MaxPool del SPP por
operaciones de SoftPool para preservar información más distintiva.
(3) Se propone un mecanismo de conversión-atención de valores. Para extraer de manera eficiente las
características de textura de humo, este mecanismo de atención utiliza la información de características del color y
la textura de la imagen de humo al tiempo que mejora la distribución de peso de la información de textura.
(4) Se propone un SMN mixto teniendo en cuenta la información del ángulo y la distancia del punto central en la
detección multiorientada de objetivos de humo.
2. Trabajo relacionado
Debido a que los combustibles en el bosque rara vez están secos, con frecuencia se produce un volumen sustancial
de humo durante el inicio de un incendio forestal. La capacidad de detectar el humo de manera efectiva es
fundamental para la prevención y el manejo de los incendios forestales. Los métodos para la detección de humo se
pueden clasificar en (1) métodos tradicionales, que incluyen métodos de detección manuales y de sensores, y (2)
métodos basados en imágenes, que incluyen el aprendizaje automático tradicional y el aprendizaje profundo. Los
métodos tradicionales tienen inconvenientes como un alto costo, un tiempo de respuesta lento y un rango de
aplicación estrecho. Los métodos tradicionales de aprendizaje automático tienen los problemas de extracción
insuficiente de características, una alta tasa de positivos perdidos y una alta tasa de falsos positivos entre los
algoritmos basados en imágenes. Los métodos de aprendizaje profundo no solo abordan los defectos de los
métodos tradicionales y los métodos de aprendizaje automático, sino que también tienen las ventajas de una alta
precisión y una identificación precisa en entornos complicados. Como corolario, el uso de métodos de aprendizaje
profundo para extraer características de humo de nivel profundo y distinguir eficazmente el humo de fondos
complicados es un objetivo importante de las tareas de monitoreo de humo de incendios forestales, que también es
el objetivo principal de este documento.
Los métodos actualmente populares se basan principalmente en la detección manual o la detección de sensores. El
método de detección manual implica que los guardias forestales realicen patrullas terrestres en el bosque e
informen al departamento correspondiente tan pronto como surja un incendio para llevar a cabo medidas de
extinción y extinción de incendios. El método de detección de incendios forestales tiene fallas como errores
excesivos, un área de patrulla pequeña, una carga de alto costo y un área de cobertura insuficiente, y no puede
cumplir con los criterios de velocidad o precisión de la detección de incendios forestales. Las tecnologías de imagen
térmica, como los sensores infrarrojos, los sensores multiespectrales y los sensores hiperespectrales, son ejemplos
de métodos de sensores [13]. Debido al ángulo, la distancia y la oclusión del sensor, el muestreo que se basa en
partículas de humo o humedad se ve fácilmente afectado por objetos irrelevantes en la región circundante, lo que
resulta en desventajas como retrasos de tiempo extremadamente largos, alto costo, alcance limitado y dificultad de
operación [14]. Los sistemas tradicionales de detección de humo son ineficaces en la alerta temprana de incendios
forestales por las razones que se exponen anteriormente.
Para detectar los incendios forestales temprano, los investigadores han llevado a cabo una extensa investigación
sobre el reconocimiento del humo utilizando imágenes de humo y extrayendo el color y las características
texturales del humo [15] Inicialmente, se utilizaron algoritmos típicos de procesamiento digital de imágenes y
métodos de reconocimiento de patrones [16] para extraer y evaluar las propiedades del humo para identificar el
humo. D Krstini et al. investigaron numerosas transformaciones del espacio de color midiendo la separabilidad de
los píxeles de humo y no fumados para encontrar una combinación adecuada de espacio de color y métodos de
segmentación de humo a nivel de píxel para la segmentación a nivel de píxel de humo [17]. Gubbi, J. et al.
propusieron un método para la caracterización del humo basado en wavelets y una máquina de vectores de soporte
que minimiza efectivamente la tasa de falsa alarma de humo [18]. Surapong et al. idearon un método de detección
de humo de incendios forestales que procesa imágenes digitales basadas en un examen de las características
estáticas y dinámicas del humo [19].. Este método localiza la región de interés utilizando el algoritmo de
componentes Unicom, utiliza el algoritmo de casco convexo para calcular el área de la región y dividir el área
cambiada, analiza y calcula las características estáticas y dinámicas, y determina si el objeto cambiado en la imagen
es humo. Chen et al. analizaron las primeras imágenes de video de humo, estimaron las reglas de distribución del
color del humo y construyeron un árbol de decisión para reconocer el humo basado en las variaciones del color del
humo y la difusión dinámica [20]. Yu et al. procesaron imágenes de humo en bloques, evaluaron y calcularon los
cambios en la textura de los videos de humo, los categorizaron y verificaron que las características de textura del
humo variaban significativamente de las de las áreas no fumadoras [21]. Yuan et al. propusieron texturas locales y
globales para las características texturales de las imágenes para mejorar la detección de humo, pero los límites
locales y globales eran difíciles de medir. Establecer un umbral uniforme basado en el nivel de píxeles en este
método de investigación es difícil porque es difícil conciliar el humo cercano con el humo distante y es probable que
se pierdan incendios o falsas alarmas [22].. Utilizando el principio de codificación fractal, Fujiwara y Terada
idearon un método para extraer regiones de humo de las imágenes. Este método no extrae información de la forma
o la forma en sí, sino que utiliza la autosimilitud de la forma de humo y las conexiones de posición de píxeles para
extraer el área de humo de una sola imagen brillante [23]. Aunque este método reduce la dependencia del conjunto
de datos, lleva mucho tiempo analizar las características del humo y es ineficaz para detectar el humo que está lejos
de la lente. Gubbi et al. propusieron un método de detección de humo que se basa en wavelets y máquinas de
vectores de soporte y utiliza una descomposición de wavelet de tres niveles para diferentes niveles de
características. Sesenta características, como la entropía, la curtosis y la asimetría, se calcularon como entradas al
modelo clasificador basado en coeficientes [24].. Finalmente, se utiliza una máquina de vectores de soporte para la
clasificación. Este método se basa en la detección de imágenes de humo de alta calidad que son capturadas por una
cámara fija inferior y no tiene en cuenta el impacto del clima en la calidad de la imagen. Verstockt et al.
propusieron un detector multimodal de llamas y humo para grandes espacios abiertos que obtiene imágenes
visuales y de magnitud basadas en el tiempo de vuelo [25]. Si un objeto tiene una alta probabilidad de ser una
característica de llama, se etiqueta como una región de llama candidata. También se investigó el trastorno de
amplitud, y las regiones con altas diferencias de amplitud acumulativa y altos valores en todas las imágenes
detalladas de la transformada de onda discreta de la imagen de amplitud también se etiquetan como regiones de
llama candidatas. Una alarma de incendio se activa cuando al menos una de las regiones de llama visual y una de
las regiones candidatas a la amplitud se superponen. Esta solución es inmadura debido a su baja resolución y al
alto consumo de energía de la técnica, lo que requiere que el receptor y el transmisor estén cerca de la fuente de
fuego. Esto es difícil de realizar en vastos bosques.
En los últimos años, el desarrollo de técnicas de aprendizaje profundo nos ha permitido detectar incendios
forestales a partir de imágenes, lo que ha aportado nuevas ideas a la alerta temprana de incendios forestales [26].
Los métodos de aprendizaje profundo pueden extraer características de muchas imágenes etiquetadas e identificar
imágenes de humo cambiantes [27]. La detección de objetos generalmente se divide en detección de dos etapas y
detección de una etapa. La detección en dos etapas está representada por RCNN [28], que tiene la ventaja de ser
altamente precisa; sin embargo, la detección de dos etapas tiene altos requisitos de hardware, no es fácil de
implementar ampliamente y tiene una baja tasa de detección. La detección de una etapa está representada por
YOLO [29], que tiene una tasa de detección eficiente y es adecuada para la detección rápida de incendios. YOLO,
que fue propuesto por Redmon et al. es un algoritmo de detección de objetos en tiempo real de extremo a extremo
que utiliza redes neuronales convolucionales para realizar la extracción de características y clasificar objetos e
imágenes localizadas, lo que tiene la ventaja de una alta eficiencia pero carece de precisión. YOLOv2 [30],, que fue
propuesto por Redmon y Frahadi, utiliza la agrupación de K-means para preprocesar el tamaño de la caja anterior
y agrupa la caja anterior en 9 clases con diferentes longitudes y anchuras para detectar objetivos con diferentes
escalas de tamaño, compensando así las deficiencias de YOLO en términos de precisión. Sin embargo, YOLOv2 no
se centra en el problema de entrenamiento de diferentes tamaños de imagen y no funciona bien en la detección de
objetivos pequeños. En un estudio posterior, Redmon y Frahadi propusieron YOLOv3 [31], que se basa en YOLOv2
y cuenta con una red piramidal [32] para mejorar el rendimiento de detección, especialmente en la detección de
objetos pequeños. Sin embargo, el rendimiento de YOLOv3 en objetos con características complejas aún debe
mejorarse, y YOLOv3 aún está lejos de ser aplicable para la detección práctica de incendios forestales. YOLOv4
[33], que fue propuesto por Bochkovskiy et al. optimiza varios aspectos de YOLOv3 en términos de procesamiento
de datos, la red troncal, la capacitación de la red, la función de activación y la función de pérdida, entre otros
factores, y realiza diferentes grados de optimización en aplicaciones prácticas para mejorar el rendimiento del
modelo y proporcionar pautas para aplicaciones prácticas para la detección de incendios forestales. YOLOv5, que
fue propuesto por Glenn Jocher, utiliza el aumento de datos de mosaico en el lado de entrada; CSPDarknet53, la
función de activación Mish y Dropblock en la columna vertebral; y la estructura SPP en el cuello para mejorar el
YOLO. En comparación con YOLOv4, YOLOv5 es un modelo más ligero que realiza una velocidad más alta y aún
así garantiza la precisión. El modelo YOLOv5 propuesto es de peso ligero y alta precisión en aplicaciones prácticas
en comparación con otros modelos YOLO [34].
Los métodos de aprendizaje profundo superan a los métodos tradicionales en la detección del humo de los
incendios forestales y con frecuencia se basan en futuros simples como el color y el contorno del humo. Se requiere
más investigación en el campo de la detección de humo de incendios forestales para investigar diversas
características de humo y mejorar el rendimiento de detección en entornos forestales complicados [35]. A
diferencia del trabajo anterior, nuestro estudio se dedica a recopilar características de humo más profundas para
diferenciar el humo de los fondos complicados (como las nubes y la niebla). Simultáneamente, se emplea una caja
de detección multidireccional para identificar la dirección del humo.
En consecuencia, el método en este documento emplea la columna vertebral estándar de YOLOv5 para extraer
características fundamentales, la agrupación de pirámides espaciales de Softpool para retener más información de
características y el módulo de mecanismo de atención de conversión de valor para caracterizar la información de
textura espacial del humo. La pirámide de características original de YOLOv5 se utiliza para la fusión de
características en el paso de fusión de características. Se propone que Mixed-NMS reemplace el algoritmo NMS
ponderado de YOLOv5 en el paso de posprocesamiento de imágenes para reducir las detecciones faltantes y falsas
de humo. La Fig. 2 ilustra la metodología MVMNet que se presenta en este documento.
Figura 2. Flujo de trabajo de MVMNet.
3. Método
3.1. Adquisición de datos

Actualmente no hay datos de detección de humo disponibles públicamente, ya que se han capturado pocas
imágenes de humo, ya que las imágenes de humo son difíciles de obtener, y el número de investigadores en el
campo de la detección de objetivos de humo de incendios forestales es limitado. Como resultado, antes de realizar
la investigación que se describe en este documento, se deben recopilar datos de humo. Primero, empleamos
cámaras Hikvision para fotografiar 10,532 imágenes de humo en varios estados en llamas y entornos climáticos en
bosques y tierras de cultivo. La dirección y forma del humo varían dependiendo del entorno en el que se encuentre
el incendio y la magnitud del viento. A continuación, para complementar el conjunto de datos, este documento
replica el hábitat del bosque y genera 5377 imágenes. Finalmente obtenemos el conjunto de datos de detección
multiorientada de incendios forestales, que incluye 15.909 imágenes (ver Fig. 3 para imágenes de ejemplo). Las
colecciones de las escenas reales y simuladas anteriores sin humo, que está más cerca de la situación real, porque el
bosque no está ardiendo constantemente.
Las tres imágenes de la Fig. 4 son todos datos simulados que se obtuvieron en el campo en un claro en las afueras
de una ciudad. Como se muestra en las imágenes, el claro contenía plantas y árboles, y los alrededores estaban
relativamente abiertos para simular un fondo de bosque. El humo se producía quemando ramas y hojas secas. La
Fig. 4 (a) fue capturada por la mañana, la Fig. 4 (b) en el medio del día y la Fig. 4 (c) por la noche para simular el
humo que se produce por un incendio forestal en diferentes condiciones climáticas y en diferentes momentos del
día.
Descargar : Descargar imagen de alta resolución (2MB) Descargar : Descargar imagen a tamaño completo
Figura 3. Ejemplos de datos experimentales donde las imágenes muestran (a) humo de largo alcance, (b) humo de
medio alcance, (c) humo de corto alcance y (d) no humo.
Las imágenes que se recopilaron en el lugar son inconsistentes con las imágenes iniciales que se recopilaron en un
entorno simulado, y su calidad no es consistente. Para facilitar la investigación, los estándares de imagen de alta
definición se unifican a través de la detección, el recorte y la estandarización para representar el verdadero entorno
forestal. Para etiquetar los datos multiorientados, utilizamos el software LabelImg2, y las etiquetas incluyen
coordenadas de posición, longitud, altura e información de ángulo. LabelImg2 etiqueta el conjunto de datos solo en
formato VOC. Una vez completado el etiquetado, se obtiene el conjunto de datos en formato VOC; por lo tanto, el
conjunto de datos también debe convertirse al formato YOLO. La Fig. 5 muestra los pasos para convertir el
conjunto de datos.
Fig. 4. Simulated forest fire scenes that were captured in the field.
Download : Download high-res image (115KB) Download : Download full-size image
Fig. 5. Dataset format conversion steps.
3.2. YOLOv5 backbone

YOLOv3 employs Darknet53 as its backbone and a feature pyramid network to fuse image features; hence, it is a
classic target detection network. YOLOv5 adheres to the core structure of YOLOv3 and divides the complete
network structure into four parts: input, backbone, neck, and prediction. In contrast to YOLOv3, YOLOv5 employs
CSPDarknet53 as the backbone, along with the Focus structure and two kinds of constructed CSP structures. Prior
to passing the image to the backbone, the Focus structure executes a slicing operation on it and obtains a value for
every other pixel in the image, similar to adjacent downsampling, to produce four images that have not lost any
information at this time. As a result, the original image’s W and H information is concentrated in the channel
space, and the input channel is expanded by four times, thereby resulting in a spliced image with 12 channels as
opposed to the original RGB three-channel mode. Finally, the image that is obtained by the focus slice is subjected
to the convolution operation, which yields a double downsampled feature map with complete information. The
backbone network employs the CSP1_X structure, whereas the neck network employs the CSP2_X structure. The
distinction between the two is that CSP1_X employs a residual component, and the residual connection of the
residual component facilitates the reuse of extracted feature information, which renders it suitable for the
backbone. CSP2_X makes use of the CBL module, which is made up of three parts: a convolutional layer, a batch
processing layer, and a LeakyReLU activation function that facilitates feature map fusion. Smoke has irregular
diffusion features, and its pixel-based features are not visible. It is easy to lose critical information when employing
a single-channel neural network to extract features, which decreases the detection effect. YOLOv5’s CSPDarknet53
solves the problem of severe gradient degradation via residual connection and has produced good results in the
field of common target detection.
Actual forest fire monitoring tasks require high-performance real-time monitoring methods. Furthermore, smoke
has strong transparency properties, which distinguishes it from ordinary objects, and most neural networks do not
take transparency into account. Through the slicing operation, the Focus module of YOLOv5 converts the RGB
three-channel mode to the twelve-channel mode, which not only boosts the speed but also helps extract the high-
transparency features of the smoke. To take into account the real-time and high-transparency properties of smoke,
this paper uses YOLOv5 as the basic network. YOLOv5 offers advantages in forest fire smoke detection tasks;
however, the properties of smoke and typical objects are significantly different. By designing according to the
features of smoke, it is possible to considerably enhance the model’s detection rate. As a result, we propose the
MVMNet target detection method, which improves upon YOLOv5.
3.3. Multioriented detection based on the value conversion-attention mechanism module and mixed-
NMS (MVMNet)
MVMNet is upgraded on the basis of YOLOv5, and the network structure changes are illustrated in Fig. 6.
YOLOv5’s feature extraction network is composed of the Focus, CBL, SPP, and CSP1_X modules. This paper builds
on YOLOv5 by replacing the SPP module with the Soft-SPP module and adding the VAM module. This paper
improves the IoU calculation method, the loss function calculation method, and the NMS strategy, in addition to
the network structure. Additional details are provided in the following chapters.
Figura 6. Estructuras de MVMNet y YOLOv5.
3.3.1. Detección multiorientada

a) Regresión de la caja de anclaje y la función de pérdida
Durante el proceso de entrenamiento, cada caja de anclaje se describe mediante una representación de cinco
parámetros. Para acomodar las propiedades del humo en la detección de multiorientación, se utiliza un enfoque de
regresión para determinar la ubicación de cada caja de anclaje de multiorientación. La regresión se calcula de la
siguiente manera [36]:
(1)
(2)
(3)
(4)
Las variables representan la posición horizontal, posición vertical, anchura, altura y ángulo del cuadro de
detección, respectivamente, respectivamente, y las variables representan la caja de verdad del suelo, la caja de
anclaje y la caja predicha, respectivamente (del mismo modo para ).
Se emplea una función de pérdida durante la fase de entrenamiento del modelo. Para la retropropagación,
combinamos la función de pérdida de regresión, la función de pérdida VAM y la función de pérdida de ángulo. La
función de pérdida total que establecemos se presenta como fórmula (5)::
(5)
Aquí, , y son los hiperparámetros; es el número de cuadros candidatos; y es un valor binario que indica si un punto
de píxel está cubierto por un fotograma candidato (la cobertura se indica por 1 y la no cobertura por 0). determina
la dirección de la propagación del gradiente, e IoU es la relación de intersección del cuadro de predicción y la
verdad del suelo. es la altura del marco candidato, es el ancho del marco candidato, y es la función de pérdida del
VAM.
a) PolyIoU para una caja de anclaje multiorientada
La dirección del aleteo del humo en su condición natural está relacionada con la convección térmica del aire, que
tiene las características de aleteo ascendente y desplazamiento irregular. La Fig. 7 muestra el humo con múltiples
orientaciones.
We aim to determine the direction of the smoke as accurately as possible to facilitate the determination of the fire
location, which will help prevent as much damage as possible from the forest fire. In addition, we choose a suitable
anchor box representation to reduce the amount of redundant information that is provided to the network during
training, thereby reducing the number of learning options that are available to the network, facilitating the
constraint of the network’s training direction, and reducing the convergence time of the network. We use a five-
parameter long-edge representation ( ) to represent the multioriented anchor box , where denotes the
angle through which the longest edge is encountered under clockwise rotation in the axial direction and .
The traditional IoU calculation method for multioriented anchor boxes uses axis-aligned bounding boxes to
calculate the IoU; however, the IoU calculation on axis-aligned bounding boxes may lead to an inaccurate IoU for
multioriented detection and further corrupt the final prediction.
Download : Download high-res image (289KB) Download : Download full-size image
Fig. 7. Smoke in three directions.

To accurately calculate the intersection ratio of a multioriented anchor box, we use the PolyIoU calculation, in
which the angles are considered. First, the intersection points that are formed by the edges of two rectangular
boxes are identified with the vertices of a rectangular box that is contained within another rectangular box. From
this, the problem is transformed into a problem of finding the area of the polygon that these vertices surround. The
polygon area problem can be solved using the fork product between two of the vertices. The right-hand rule is used
to determine the positive and negative aspects of the area and to determine whether the calculated area is positive
or negative. The calculation of PolyIoU for the three crossover methods is illustrated in Fig. 8.
El área de intersección de las cajas rectangulares se calcula utilizando la fórmula (6).
(6)
A continuación, determinamos el área de unión empleando el teorema de repulsión de tolerancia, que produce la
Fórmula (7).
(7)
Finalmente, el método de cálculo PolyIoU calcula directamente la relación de intersección entre dos cajas de
anclaje, donde el área de intersección de las dos cajas inclinadas es el numerador y el área combinada es el
denominador, como se expresa en la Fórmula (8)..
(8)
Cuando la verdad del suelo es horizontal, se obtiene una predicción inexacta. Por esta razón, movemos cada punto
hacia adelante o hacia atrás en un bit, calculamos las pérdidas de los tres métodos al avanzar y retroceder, y
seleccionamos el más pequeño de estos valores como resultado. Este cálculo, que se expresa mediante la función de
pérdida de posición, se presenta en la Fórmula (9)..
(9)
Figura 8. Cálculo de PolyIoU: La parte blanca es la intersección de dos cajas rectangulares, que se divide en varios
triángulos con una línea punteada azul. Luego, las áreas de los triángulos se calculan por separado y se suman para
obtener el área total de la intersección.
3.3.2. Agrupación piramidal espacial de Softpool (Soft-SPP)

Las imágenes en el conjunto de datos de humo son de diferentes tamaños, pero las imágenes de entrada deben ser
del mismo tamaño fijo para el entrenamiento de la red. En los métodos anteriores de detección de objetos, a
menudo se usaba el recorte o deformación aleatorio. El recorte aleatorio resuelve el problema de variar los tamaños
de imagen de entrada, pero cuando se repite la región recortada, el peso de la región repetida aumenta
inadvertidamente. Puede producirse distorsión de objetos y distorsión de imagen. Para abordar estos problemas,
YOLOv5 emplea la agrupación de pirámides espaciales (SPP) [37] al final de la red de extracción de características.
En esta estructura se utilizan tres operaciones paralelas de MaxPool. Sin embargo, la introducción de estas
operaciones MaxPool da como resultado una pérdida significativa de información del mapa de entidades. Es
fundamental preservar tanta información de mapas de entidades como sea posible en un problema de detección de
un solo objetivo, como la detección de humo de incendios forestales. Por lo tanto, este documento diseña Softpool-
spatial pyramid pooling (Soft-SPP), que es un módulo que reemplaza todas las operaciones de MaxPool en SPP con
operaciones de SoftPool [38].. Esto tiene la ventaja de retener tanta información de mapa de entidades como sea
posible y funciona mejor en la detección de objetos de una sola categoría. SoftPool es un método de ponderación
exponencial rápido y eficiente, y en comparación con otros métodos de agrupación, SoftPool retiene más
información en el mapeo de activación de muestreo descendente y opera a una escala más fina. Esto facilita la
solución de problemas de detección de objetos de una sola categoría, como la detección de humo. Los pasos de
SoftPool se ilustran en la Fig. 9.
, , , forman un área de tamaño 2 * 2 en la figura original. Primero, usamos la Fórmula (10) para convertir , , y en
area1 en cuatro áreas en Area2. Luego, las cuatro áreas en Área1 y Área2 se multiplican por separado y se suman a
los resultados que se obtienen multiplicándolas para obtener el resultado final.
(10)
En ImageNet, para una gama de arquitecturas CNN populares, reemplazar la operación de agrupación original con
SoftPool resultó en mejoras del 1% al 2% en consistencia y precisión, lo que demuestra que se pueden obtener
resultados significativos al reemplazar otras operaciones de agrupación con SoftPool [37]. Además, SoftPool tiene
menos parámetros y logra una mejor convergencia en las primeras rondas de entrenamiento que el downsampling
usando convolución. La operación SoftPool se expresa de la siguiente manera:
(11)
En cada cuadrícula del mapa de entidades, respondemos a cada convolución usando SoftPool. El número de
cuadrículas se establece en M, el número de filtros para la capa de convolución anterior es k y la salida de la
agrupación de pirámides espaciales es un vector k*M-dimensional. El vector de dimensión fija es la entrada a la
capa totalmente conectada. El módulo Soft-SPP se ilustra en la Fig. 10.
Figura 9. Proceso de ponderación exponencial de SoftPool.
Figura 10. Módulo Soft-SPP.
3.3.3. Módulo del mecanismo de conversión-atención de valor (VAM)

La difusión del humo es irregular, y el entorno del bosque es complicado y cambiante, lo que resulta en
características discretas basadas en píxeles. YOLOv5 utiliza solo CSP-Darknet como la red de extracción de
características para la red troncal, lo que dificulta tener en cuenta adecuadamente las características texturales del
humo. Las características texturales se utilizan para describir la distribución espacial en combinación con los
colores del objeto y tienen ventajas en términos de estabilidad. Para mejorar el rendimiento de extracción de la red
de extracción de características de textura, proponemos un método de módulo de mecanismo de conversión-
atención (VAM) de mecanismo de conversión de valor de atención (VAM) que se basa en una estrategia de
asignación de peso conjunta para las direcciones horizontal y vertical. Se dirige al color, la textura y la especificidad
del humo para la extracción de características. La primera parte es un mecanismo de atención que genera
características ponderadas en las direcciones horizontal y vertical. La segunda parte suma los dos tipos de pesos y
amplía aún más los coeficientes de peso. La tercera parte coincide con las características de ponderación, considera
los dos tipos de características de ponderación y selecciona las características de ponderación más grandes para
determinar los coeficientes de ponderación más grandes. Luego, estos se utilizan para complementar los resultados
del coeficiente de ponderación de la segunda parte y para dirigir el enfoque hacia los objetos de la imagen con
colores y texturas similares a los del humo.
En el procesamiento de características de humo utilizando VAM, en primer lugar, utilizamos el análisis de

componentes principales (PCA) para la reducción de dimensionalidad para obtener características de imagen de
baja dimensión. Para cada imagen, obtenemos características de imagen para cada fila de píxeles y características
de imagen para cada columna de píxeles, reduciendo así el costo computacional. Luego, las características que se
obtienen por reducción de dimensionalidad se introducen en el VAM para obtener características más
representativas y profundas y relaciones entre las características. El flujo del algoritmo VAM se ilustra en la Fig. 11.
En el VAM se utilizan tres estrategias para amplificar las diferencias en los coeficientes de peso de las
características. Se describen a continuación.
Figura 11. Flujo del algoritmo VAM.
a) Estrategia de distribución horizontal y vertical
Asignamos coeficientes de peso horizontal a cada fila de entidades mediante el uso del mecanismo de atención
horizontal y asignamos coeficientes de peso vertical a cada columna de entidades mediante el uso del mecanismo
de atención vertical.
(12)
b) Estrategia aditiva de coeficiente ponderado
Sumamos los dos tipos de características de ponderación para ampliar aún más los factores de ponderación.
(13)
c) Estrategia de asignación de pesos
Para utilizar el valor máximo como factor principal y tener en cuenta las otras características, la estrategia se
combina con dos tipos de características de ponderación, que se utilizan para complementar los resultados de la
estrategia de suma de ponderación en el segundo paso.
(14)
En los experimentos de la Sección 4.2.2, confirmamos que los valores óptimos de los parámetros de asignación de
peso son y .
Las tres estrategias de este método se combinan en la siguiente fórmula, y el procedimiento de concatenación se
ilustra en la Fig. 12.
(15)
En la fórmula anterior, representa los coeficientes de peso del mecanismo de atención, representa las entidades
temporales, representa las características de secuencia, representa la información de capa oculta de la secuencia de
entidades, representa la secuencia de características del mecanismo de atención vertical , y representa la secuencia
de características del mecanismo de atención horizontal. representa el factor de ponderación aditivo. representa la
operación de valor máximo. representa la operación de valor mínimo. representa la estrategia de asignación de
peso. El procedimiento de asignación de peso VAM se ilustra en la Fig. 13.
Figura 12. Proceso de concatenación y fusión.
Figura 13. Estrategia de asignación de peso.
3.3.4. Algoritmo NMS mixto para procesar tramas candidatas

La supresión no máxima (NMS) se emplea ampliamente en la etapa de predicción de la detección de objetivos
basada en modelos de aprendizaje profundo para superar el problema de múltiples cajas de detección repetidas
alrededor del objeto. El entorno forestal es complejo, con pequeños cambios en los valores de píxeles de humo al
principio de la generación de humo y cuando el humo está lejos. El uso de un umbral único para la detección de
humo puede conducir fácilmente a un aumento en los informes perdidos, lo que dificulta la superación del impacto
de los entornos de fondo complejos en la detección de humo. El entorno forestal variable también dificulta la
predicción de la forma y el tamaño del humo que se produce, junto con la distribución y densidad del humo. Como
estrategia principal, YOLOv5 utiliza valores de IoU en NMS para seleccionar cuadros de predicción y utiliza un
enfoque NMS ponderado. Sin embargo, para el humo, es difícil elegir un umbral adecuado porque los objetivos
reales de humo varían en forma, lo que resulta en un rango de niveles de confianza para la detección. El uso de un
umbral NMS bajo puede conducir a un sobrefiltrado de los marcos candidatos, lo que resulta en una disminución
de la mAP. La razón de esto es que puede haber una caja de detección que está muy cerca del objetivo real pero
tiene un nivel de confianza que está ligeramente por debajo de M; este cuadro de destino más cercano se filtraría
incorrectamente. Además, el uso de un umbral NMS alto también puede introducir detecciones falsas. En este caso,
las detecciones repetidas de humo falso ocurrirían en grandes cantidades. Esto se debe a que los umbrales altos
permiten detectar repetidamente diferentes características de la misma nube de humo como múltiples objetos.
Además, el método para la detección de objetos de humo utilizando un enfoque de caja de anclaje multiorientado
que se describe anteriormente tiene un parámetro de ángulo adicional, pero este ángulo debe considerarse en la
fase NMS. En la detección de objetos multiorientados, la IoU se ve afectada sustancialmente cuando cambia el
ángulo de los dos objetos. El NMS ponderado de YOLOv5 no es adecuado para la detección de multiorientación en
escenarios de humo de incendios forestales. Como se ilustra en la Fig. 14, el IoU para dos cajas preseleccionadas es
significativamente más pequeña cuando las cajas están orientadas en ángulos más grandes que en ángulos más
pequeños.
El cálculo inexacto de la IoU puede conducir a detecciones de humo perdidas o falsas. Cuando se producen
detecciones perdidas, las personas no son informadas de los incendios a tiempo, lo que conduce a incendios
incontrolables. Cuando se producen detecciones falsas, se cobra un alto precio al sistema de extinción de incendios.
Para obtener excelentes resultados de detección de incendios forestales y reducir la ocurrencia de detecciones
perdidas y falsas, este trabajo propone Mixed-NMS combinando los métodos Skew-NMS [36] y DIoU-NMS [39].
Figura 14. Efecto del ángulo en el IoU.
Skew-NMS considera la información de ángulo basada en NMS. Si hay marcos candidatos con IoUs superiores a
0,7, se conserva el marco candidato más grande; si todos los fotogramas candidatos se encuentran en , se conserva
el marco candidato más pequeño con un ángulo inferior °.
El DIoU se calcula en base al IoU tradicional, de modo que si el centroide de una caja adyacente está más cerca del
centroide de la caja M de puntuación máxima actual, es más probable que sea una caja redundante. La fórmula de
cálculo es la siguiente:
(16)
donde es la distancia entre los centros de los dos recuadros a priori y es la distancia entre los vértices más lejanos
de los dos recuadros a priori, como se ilustra en la Fig. 15.
Mixed-NMS combina el DIoU con el método Skew-NMS y utiliza dos umbrales diferentes para la división de
intervalos, con el ángulo como parámetro que debe considerarse. Mixed-NMS ordena los cuadros preseleccionados
en orden descendente según el nivel de confianza, establece dos umbrales y utiliza diferentes operaciones de
penalización para diferentes intervalos de DIoU. Si el DIoU es inferior a 0,3, no se aplica ninguna operación de
penalización; si el DIoU está en , entonces la casilla preseleccionada con el nivel de confianza más alto se conserva
si el ángulo es menor que ; y si el DIoU es mayor que 0,7, entonces el cuadro preseleccionado con el nivel de
confianza más bajo se filtra directamente.
Figura 15. Significados de y en el DIoU.
4. Resultados y análisis
Esta sección está separada en subsecciones para (1) describir el entorno experimental y la configuración, incluido el
entorno de hardware y software, y la configuración de hiperparámetros; (2) evaluar la efectividad e identificar los
parámetros críticos de cada módulo MVMNet; (3) demostrar la eficacia del nuevo método propuesto en este
artículo a través de experimentos de ablación en MVMNet; (4) comparar MVMNet con otros métodos y demostrar
que MVMNet supera a otros métodos en tareas de monitoreo de humo de incendios forestales; y (5) describir
pruebas en escenarios de aplicación del mundo real. Según los resultados de la prueba, MVMnet supera los desafíos
del humo inclinado, la detección errónea de objetos que son similares al humo y el humo que está demasiado lejos
de la cámara.
4.1. Entorno y entornos experimentales

Todas las pruebas de este trabajo se llevan a cabo en la misma plataforma de hardware y software. Los parámetros
ambientales se enumeran en la Tabla 1.
Creamos y publicamos un conjunto de datos utilizables sobre humo de incendios forestales. Para evitar el desajuste
de la relación de aspecto y garantizar un efecto de aprendizaje satisfactorio, cortamos todas las imágenes del
conjunto de datos en imágenes con una altura igual a la anchura. Durante el entrenamiento, el modelo cambia el
tamaño de las imágenes de entrada a 512 * 512. La distribución gaussiana se utiliza para inicializar cada capa del
modelo. A continuación, establecemos el tamaño del lote en 1, el impulso en 0.8, la tasa de aprendizaje inicial en
0.005, la descomposición en 0.0005 y la duración de cada entrenamiento en 150 épocas, teniendo en cuenta el
tamaño de la memoria de la GPU y el consumo de tiempo del experimento. La Tabla 2 contiene la configuración y
los hiperparámetros. En el experimento, utilizamos una proporción de 7: 2: 1 para dividir las imágenes 15909 del
conjunto de datos de detección multiorientada de incendios forestales en un conjunto de entrenamiento, un
conjunto de validación y un conjunto de prueba.
Tabla 1. Parámetros de hardware y software.
Entorno de hardware
CPU AMD Ryzen 7 5800H con gráficos Radeon
Carnero 16 GB
Memoria de vídeo 16 GB
Gpu GPU portátil NVIDIA GeForce RTX 3060
Entorno de software
Sistema operativo Windows 10
Kit de herramientas CUDA V11.1;
CUDNN V8.0.4;
Python 3.8.8;
antorcha 1.8.1; torchvision 0.9.1
Tabla 2. Entornos experimentales.
Tamaño de las imágenes de entrada Batch_size Momento Tasa de aprendizaje inicial Decaer Iteraciones
512 × 512 1 0.8 0.005 0.0005 150 épocas
4.2. Análisis de la eficacia del módulo

Los parámetros y funciones de cada módulo que construimos se examinan en detalle en esta sección, y el método
de agrupación óptimo en el módulo SPP se detalla en la Sección 4.2.1. El coeficiente de distribución de peso de
VAM se determina en 4.2.2. Los experimentos en 4.2.3 demuestran que PolyIOU es más adecuado para la
detección multiorientada que el pagaré de alineación de ejes. En 4.2.4, el rendimiento de YOLOv5 se evalúa cuando
se emplean CODICIO-NMS, DIoU-NMS, Skew-NMS y Mixed-NMS, y se concluye que Mixed-NMS es el mejor
método nms para la detección multiorientada.
4.2.1. Eficacia de Soft-SPP

Para evaluar la eficacia de SoftPool para Soft-SPP y determinar el método de agrupación adecuado para retener las
características de humo, empleamos la agrupación promedio, la agrupación mediana, la agrupación promedio +
máxima y SoftPool para aumentar el SPP en YOLOv5. La Tabla 3 muestra los resultados experimentales:
Los resultados experimentales demuestran que, en comparación con el SPP original de YOLOv5, el empleo de
agrupación promedio y mediana en lugar de la agrupación máxima da como resultado una pérdida menor de
precisión. Se puede demostrar que simplemente reemplazar la capa de agrupación máxima no mejora la precisión.
Por el contrario, el método de combinación de agrupación promedio + máximo puede aumentar el mAP50 en un
0,25%, lo que no mejora considerablemente la precisión de la detección de humo. El uso de SoftPool en lugar de
Soft-SPP de MaxPool puede aumentar considerablemente la precisión de detección del modelo, lo que mejora la
precisión del monitoreo de incendios forestales.
Tabla 3. Rendimiento de SoftPool para Soft-SPP.
Método mapa50 (%) mapa75 (%) Ar Fps Parámetros Flop
Spp 77.12 69.25 41.52 156 22,0 M 51B
Promedio-SPP 76.98 69.11 41.34 150 22,1 M 51B
Med-SPP 76.81 68.97 41.21 155 22,0 M 51B
Promedio + Max-SPP 77.37 69.51 41.79 148 22,3 M 52B
Soft-SPP 79.98 70.93 43.86 146 22,4 M 53B
4.2.2. Eficacia de la VAM

En la estrategia de asignación de peso de la sección 3.3.3, los valores de y afectar el rendimiento de VAM en
relación con la asignación de peso de y . Para mayor comodidad, especificamos que
(17)
Se lleva a cabo un experimento de comparación. El intervalo entre valores se establece , y los valores de siempre
están relacionados con los valores de .
Para identificar los valores óptimos de y , modificamos los coeficientes de asignación de peso de VAM en MVMNet
para su prueba. Los resultados experimentales se muestran en la Fig. 16.
Los valores óptimos son y . Cuando el valor de es demasiado grande, se descuida el peso del valor mínimo, lo que
resulta en que las características de la imagen en lugares con valores más pequeños se ignoren y la extracción de las
características de la imagen pierda su naturaleza global. Cuando el valor de es demasiado pequeño, la
consideración excesiva de las características globales hace que el mecanismo de atención no pueda centrarse lo
suficiente en la información importante, lo que afecta el rendimiento de la VAM.
Figura 16. Correspondencia entre mAP50 y el factor de asignación de peso.
Introducimos los módulos SE Attention y CBAM Attention en el extremo de la columna vertebral de YOLOv5 para
pruebas comparativas para investigar la eficiencia de VAM. La Tabla 4 muestra los resultados de la prueba.
El módulo de mecanismo de atención mejora la precisión de detección después de la adición de SE Attention y

CBAM Attention después del bloqueo de CSP_2 al final de la columna vertebral. Sin embargo, el efecto de mejora
es sutil, y la adición del módulo del mecanismo de atención aumenta el número de parámetros. Cuando se aplica
VAM, la precisión mejora dramáticamente, y resulta en aproximadamente el mismo aumento en el número de
parámetros que la atención SE y la atención CBAM. Como resultado, seleccionamos VAM para mejorar la
capacidad de extracción de características de MVMNet.
Tabla 4. Rendimiento de VAM.
Método mapa50 (%) mapa75 (%) Ar Fps Parámetros Flop
Sin mejoras 77.12 69.25 41.52 156 22,0 M 51B
Atención SE 79.28 71.79 43.16 139 22,5 M 55B
Atención CBAM 79.69 72.14 43.88 132 22,7 M 57B
VAM 84.39 76.12 47.63 134 22,7 M 56B
4.2.3. Eficacia de PolyIoU

Agregamos una caja de anclaje multiorientada al YOLOv5 tradicional y utilizamos los dos métodos de cálculo de
IoU distintos para demostrar las ventajas del método de cálculo PolyIoU sobre el método de cálculo de IoU
tradicional alineado con el eje para calcular el IoU. La Fig. 17 presenta los resultados experimentales.
El método de cálculo de IoU alineado con el eje tiene defectos evidentes, y la detección del objetivo de la caja de
anclaje multiorientada difiere de la de la caja horizontal. Si el método original todavía se utiliza cuando se utiliza
una caja de anclaje multiorientada, el mAP disminuirá sustancialmente. Como resultado, el enfoque de cálculo
original debe abandonarse en favor del método PolyIoU, que aumenta la precisión en un 1,23% mientras emplea la
caja de anclaje multiorientada.
Figura 17. mapa50 resultados de tres métodos.
4.2.4. Eficacia del SMN mixto

Por lo general, los métodos convencionales de YOLOv5 utilizan NMS codicioso como un método de supresión de
valores nonextreme. En este artículo, proponemos Mixed-NMS, que mezcla DIoU-NMS y Skew-NMS. Realizamos
experimentos comparativos en modelos que incorporan solo métodos multiorientados de caja de anclaje y PolyIoU
para el YOLOv5 tradicional, y los resultados experimentales se muestran en la Fig. 18.
Los resultados experimentales muestran que Skew-NMS mejora la mAP50 en un 1,63% y DIoU-NMS mejora la
mAP50 en un 1,21% en comparación con el método codicioso-NMS. La mezcla de los dos métodos de supresión no
máxima y el establecimiento de un umbral razonable constituyen el enfoque más beneficioso para mantener la
precisión del modelo, lo que mejora la mAP50 un 2,77% en comparación con el codicioso NMS. Aunque la adición
de estos dos métodos NMS reduciría teóricamente la velocidad de predicción, en la práctica, la fase de predicción
solo representa una pequeña fracción del consumo de tiempo y tiene poco impacto en la velocidad de predicción
del modelo en la implementación real. Por lo tanto, este documento utiliza una combinación de estos dos métodos
de supresión no máxima para la detección de humo.
Figura 18. mapa50 resultados de cuatro métodos NMS.
4.3. Experimentos de ablación

Para evaluar el rendimiento del método que se propone en este documento, realizamos experimentos de ablación
de MVMNet e implementamos varias variantes de MVMNet. Eliminamos Soft-SPP, VAM o Mix-NMS de cada
implementación. Para facilitar la comparación, agregamos parámetros de ángulo a cada conjunto de pruebas y
utilizamos el método de cálculo PolyIoU. La Tabla 5 presenta los resultados experimentales. Se formulan las
siguientes observaciones:
Basándonos en MVMNet, aplicamos el enfoque de variables de control para borrar VAM, Soft-SPP y Mixed-NMS
uno a la vez y reemplazarlos con SPP y NMS (los dos módulos están incluidos en el método YOLOv5). Finalmente,
YOLOv5 se compara con la detección multiorientada-YOLOv5.
• Los experimentos comparativos entre los grupos octavo y noveno revelan que el uso de una caja de detección en
ángulo puede mejorar modestamente la mAP, lo que es más notable en el conjunto de datos de humo fácil de
detectar que en el conjunto de datos de humo difícil de detectar. Simultáneamente, el FPS se reduce en 2 debido
a la inserción del parámetro de ángulo.
• La comparación de los grupos séptimo y octavo revela que el método Mixed-NMS puede elevar el índice de
detección de humo mAP mientras disminuye el FPS en 5.
• La comparación entre el sexto y octavo grupos demuestra que Soft-SPP puede mejorar con éxito mAP al tiempo
que reduce la velocidad y el número de parámetros.
• La comparación entre el quinto y el octavo grupos demuestra que VAM puede aumentar significativamente la
mAP, pero también es la causa principal de un mayor número de parámetros de MVMNet y una disminución de
FPS. El módulo VAM puede garantizar que toda la información de la función de humo se extraiga por completo.
Los resultados de nueve grupos de experimentos demuestran a fondo las contribuciones de VAM, Soft-SPP y
Mixed-NMS a la mejora de mAP. MVMNet es más adecuado para la detección de objetivos de humo de incendios
forestales que YOLOv5.
Examinamos los resultados de detección de MVMNet con VAM eliminado, SPP reemplazando Soft-SPP y NMS
reemplazando Mixed-NMS para analizar el rendimiento del método que se propone en este artículo. El cuadro de
detección, la categoría y la confianza se muestran en el gráfico de resultados de detección, como se ilustra en la
Tabla 6.
Tabla 5. Resultados del experimento de ablación.
Número Método mapa50 (%) mapa75 (%) AR (%) Fps Param Flop
1 VAM+Soft-SPP+Mixed-NMS(MVMNet) 88.05 80.75 48.91 122 23,1 millones 59B
2 VAM+Soft-SPP+NMS 87.01 80.17 48.32 126 23,1 millones 58B
3 VAM+SPP+Mixed-NMS 86.38 79.91 48.01 132 22,7 millones 57B
4 Soft-SPP+Mixed-NMS 82.94 74.63 48.85 143 22,4 millones 54B

Número Método mapa50 (%) mapa75 (%) AR (%) Fps Param Flop
5 VAM+SPP+NMS 84.39 76.12 47.63 134 22,7 millones 56B
6 Soft-SPP+NMS 79.98 70.93 43.86 146 22,4 millones 53B
7 SPP+Mixed-NMS 81.13 71.05 43.27 149 22,1 millones 52B
8 SPP+NMS (detección multiorientada-YOLOv5) 78.35 69.37 41.76 154 22,1 millones 51B
9 YOLOv5 77.12 69.25 41.52 156 22,0 millones 51B
Como se muestra en la Tabla 6, la concentración de humo en la Fig. a y la Fig. b es pequeña, y YOLOv5 es incapaz
de detectar este humo, mientras que MVMNet es capaz de detectarlo con éxito. Si se utiliza SPP para reemplazar
Soft-SPP en MVMNet, la precisión de los resultados se reduce. Si se elimina vaM, las características de humo son
difíciles de extraer. Si se utiliza NMS convencional en lugar de Mixed-NMS, se pierde la nube de humo más
pequeña en la Fig. b, lo que demuestra que Mixed-NMS puede reducir las detecciones perdidas. En la Fig. d, el
humo está inclinado, la detección YOLOv5 utilizando la caja horizontal no coincide tan bien como la de MVMNet, y
en ambos casos, la detección pierde su coincidencia cuando Soft-SPP en MVMNet se reemplaza por SPP y VAM se
elimina. La ausencia de SMN Mixto no tiene ningún efecto. El color y la morfología de las nubes en el cielo en la
Fig. e son muy similares a los del humo, y el modelo YOLOv5 detecta erróneamente estas nubes como humo,
mientras que MVMNet no causa una detección errónea. Esta detección errónea también ocurre cuando se elimina
VAM. Por lo tanto, se demuestra el importante papel de VAM en la sesión de extracción de características.
Tabla 6. Comparación visual de los resultados de la prueba.

Tabla 7. MVMNet frente a otros modelos en el conjunto de datos de detección multiorientada de incendios forestales
test-dev. MVMNet supera a todos los detectores de una etapa y logra resultados que son competitivos con los de los
detectores de dos etapas.
Método Espinazo Ap Ap50 Ap75 Ar Fps
Detectores de dos etapas
DeNet ResNet-101 61.52 70.38 65.12 36.49 –
CoupleNet ResNet-101 63.27 72.63 66.59 37.11 –
RCNN rápido ResNet-101 65.05 74.69 67.10 38.89 –
R-CNN más rápido por G-RMI Inception-ResNet-v2 66.52 76.26 68.99 39.76 –
R-CNN+++ más rápido ResNet-101 67.68 77.49 69.23 40.19 –
R-CNN más rápido con FPN ResNet-101 68.24 81.13 70.75 40.73 –
R-CNN más rápido con TDM Inception-ResNet-v2 68.80 78.87 71.06 42.27 –
D-FCN Alineado-Inicio-Resnet 69.54 80.06 72.33 43.43 –

Regionlets ResNet-101 70.87 81.49 74.05 44.64 –
Máscara R-CNN ResNet-101 72.31 82.14 75.21 45.29 –
LH R-CNN ResNet-101 74.62 84.12 77.13 46.29 –
Cascada R-CNN ResNet-101 75.54 85.96 78.86 47.16 –
D-RFCN + SNIP DPN-98 77.22 87.31 80.82 48.01 –
Detectores de una etapa
YOLO GoogLeNet 46.11 54.10 48.63 33.02 44
YOLOv2 DarkNet-19 59.01 69.95 61.79 37.41 67
YOLOv3 DarkNet-53 65.97 77.25 69.63 41.73 32
YOLOv4 CSP-Darknet53 77.36 86.62 79.02 47.94 35
YOLOv5 CSP-Darknet53 66.02 77.12 69.25 41.52 156
DSOD300 DS/64-192-48–1 62.95 74.20 65.14 38.85 26
GRP-DSOD320 DS/64-192-48–1 63.72 75.03 68.86 39.38 18
SSD513 ResNet-101 59.63 70.57 62.14 37.58 89
DSSD513 ResNet-101 61.89 73.01 64.76 38.16 52
RefineDet512 (escala única) ResNet-101 64.52 77.81 67.31 39.86 81
RetinalNet800 ResNet-101 68.72 78.35 70.19 42.08 68
RefineDet512 (escala múltiple) ResNet-101 70.25 80.96 73.29 43.97 67
YOLOX [40] CSP-Darknet53 69.17 82.71 73.46 42.68 25
FireNet [41] – 77.15 87.23 80.34 48.48 23
DCNN [42] – 77.64 87.64 80.40 48.60 30
DeepSmoke [43] EfficientNet 78.16 87.31 80.80 48.93 33
Detectores de dos etapas (método de detección multiorientado)
SCRDet [44] SF-Net+MDA-Net 70.19 80.36 73.02 43.10 –
R2CNN [45] ResNet-101 58.17 – – – –
GLSNet [46] ResNet-101 70.81 – – – –
FADet [47] ResNet-152 71.31 – – – –
ADRS [48] ResNet-152 71.64 – – – –
FFA [49] ResNet-101 73.79 – – – –
APE [50] ResNext-101 73.81 – – – –
F3Neto [51] ResNet-152 74.26 – – – –
LCR [52] ResNet-152 74.73 – – – –
MRDet [53] ResNet-101 74.99 – – – –

SCRDet++ [54] ResNet-101 75.12 – – – –
FR-EST [55] ResNet-101-DCN 77.15 – – – –
Detectores de una etapa (método de detección multiorientado)
TOSO [56] ResNet-101 57.72 67.48 60.94 37.13 53
Un2SDet [57] ResNet-101 67.85 77.16 71.01 44.18 49
DRN [58] H-104 70.99 80.08 74.32 46.02 61
R4Det [59] ResNet-152 74.48 83.59 78.26 47.39 88
R3Distrito [60] ResNet-152 72.14 81.19 75.78 46.86 106
PolarDet [61] ResNet-101 74.26 83.95 77.15 47.26 68
RDD [62] ResNet-101 76.19 86.02 79.39 48.11 79
S2A-Net [63] ResNet-101 77.69 87.08 79.92 48.26 46
GWD [64] ResNet-152 78.15 87.69 80.46 48.82 29
MVMNet CSP-Darknet-53 78.92 88.05 81.15 49.08 122
Tabla 8. MVMNet y los métodos populares actuales se clasificaron en orden descendente de AP, AR y FPS. La
diferencia de rendimiento de los métodos populares en relación con MVMnet se especifica entre paréntesis.
Rango Ap Ar Fps
1 MVMNet (78,92) MVMNet (49.08) YOLv5 156 (+34)
2 DeepSmoke (78.16(−0.66)) DeepSmoke (48.93(−0.15)) MVMNet 122
3 GWD (78.15(−0.67)) GWD (48,82(−0,26)) R3Det (106(−16))
4 S2A-Net (77,69(−1,23)) DCNN (48.6(−0.48)) SSD513 (89(−33))
5 DCNN (77.64(−1.28)) FireNet (48.48(−0.6)) R4Det (88(−34))
6 YOLOv4 (77.36(−1.56)) S2A-Net (48,26(−0,82)) RefineDet512(escala única) (81(−41))
7 D-RFCN + SNIP (77.22(−1.70)) RDD (48.11(−0.97)) RDD (79(−43))
8 FireNet (77.15(−1.77)) D-RFCN + SNIP (48.01(−1.07)) RetinalNet800 (68(−54))
9 FR-EST (77,15(−1,77)) YOLOv4 (47.94(−1.14)) PolarDet (68(−54))
10 RDD (76.19(−2.73)) R4Det (47.39(−1.69)) YOLOv2 (67(−55))
Tabla 9. Comparación del grado de variación en la capacidad de clasificación entre modelos.

Rango Método Estadísticas Q Rango Método Estadísticas Q
1 MVMNet 1 6 YOLOv4 0.89177
2 DeepSmoke 0.92762 7 D-RFCN + SNIP 0.88922
3 GWD 0.92237 8 FireNet 0.88764
4 S2A-Net 0.89812 9 FR-EST 0.88764
5 DCNN 0.89513 10 RDD 0.85671
4.4. Comparación de MVMNet con otros métodos

Comparamos el rendimiento de MVMNet con el de otras redes de detección de objetivos en la Sección 4.4.1 y
demostramos que supera a otros modelos en tareas de monitoreo de humo de incendios forestales. Luego, en la
Sección 4.4.2, aplicamos MVMNet en un contexto complejo y demostramos que MVMNet puede cumplir con tareas
difíciles de monitoreo de humo de incendios forestales.
4.4.1. Comparación del método MVMNet con otras redes de detección de destino
Para analizar más a fondo el rendimiento de MVMNet, lo comparamos con RCNN, SPPNet, Fast RCNN, Faster
RCNN, OverFeat, YOLO, YOLOv2, YOLOv3, YOLOv4, YOLOv5 y SSD en la detección de objetos de humo. RCNN
extrae valores independientes de la categoría de las regiones candidatas de la imagen de humo de entrada, y para
cada región, se extrae un vector de característica de longitud fija utilizando CNN, y la extracción se transforma
uniformemente a un tamaño fijo de 227 * 227, independientemente del tamaño y la forma de las regiones
candidatas. Para eliminar la restricción del tamaño fijo de la imagen, SPPNet [65] introduce una capa de
agrupación de pirámides espaciales. Después de la última capa convolucional, se inserta la capa SPP. Para evitar la
distorsión de la imagen de humo causada por la "planitud" o la "hipertrofia" inducida por el recorte o la
deformación al principio, la capa SPP agrupa el mapa de entidades y genera una salida de longitud fija. El RCNN
rápido [66] hace girar directamente toda la imagen de humo, lo que reduce sustancialmente el número de cálculos
repetitivos. RCNN más rápido [67] combina múltiples pasos de extracción de características, extracción de
propuestas y regresión de cajas delimitadoras en una red, mejorando así el rendimiento de la detección de humo.
OverFeat [68] utiliza el entrenamiento multiescala y se aleja de la supresión no máxima tradicional a un enfoque de
predicción acumulativa. YOLO utiliza todo el mapa como entrada a la red y hace retroceder la ubicación y la clase
de la caja de detección en la capa de salida, con diversos grados de mejora en cada una de sus cinco versiones. SSD
[69] utiliza una red CNN para la detección como lo hace YOLO, pero con dos mapas de características multiescala,
lo que permite extraer características de humo más granulares. Todos los métodos anteriores utilizan un modelo de
red neuronal convolucional profunda, a saber, MVMNet, y sus resultados experimentales comparativos en el
conjunto de datos de detección multiorientada de incendios forestales se presentan en la Tabla 7.
Los resultados muestran que los detectores de una etapa son más rápidos que los detectores de objetivos de dos
etapas. En comparación con el detector de objetivo tradicional de una sola etapa de caja horizontal, YOLOv2 y SSD
son sustancialmente más rápidos, pero sus precisiones son insuficientes. El posterior modelo de detección de
objetivos de una sola etapa muestra mejoras en términos de precisión y velocidad. YOLOv4 tiene un mAP50 del
86,62% y YOLOv5 tiene un FPS de 156. Además, en la tabla se comparan tres métodos actualizados de detección de
humo de incendio. Dado que algunos de los algoritmos de monitoreo de humo más efectivos emplean la
clasificación de imágenes, comparamos la detección de objetivos utilizando la cabeza de MVMNet en lugar de la
capa completamente conectada en el estudio original. Nuestro modelo mejora el AP50 en un 10,93% en
comparación con YOLOv5 con poca reducción de velocidad y en un 1,53% en comparación con YOLOv4 con una
mejora en la velocidad de detección en más de tres veces. MVMNet supera a la mayoría de los detectores en
términos de precisión en comparación con el detector de objetivo de dos etapas de caja horizontal estándar.
MVMNet funciona algo mejor en general que D-RFCN + SNIP, aunque funciona significativamente peor en la
detección de objetivos pequeños. Sin embargo, en términos de velocidad, el detector de dos etapas se queda corto.
Incluso en la detección de humo para objetivos pequeños, no es tan eficaz como MVMNet. En términos de
precisión, MVMNet supera a todos los detectores de dos etapas en la tabla en comparación con los nuevos
algoritmos de detección multiorientación que se desarrollaron en los últimos años. El detector de una sola etapa
MVMNet tiene un claro beneficio de velocidad. MVMNet supera a los nuevos algoritmos de detección de una sola
etapa, como RDD y GWD, en términos de velocidad y precisión. Específicamente, el MVMNet propuesto se basa en
los módulos VAM y Soft-SPP para extraer mejor las características complejas y variables del humo y se ajusta a la
morfología del humo con una caja de detección multiorientada. En resumen, se logra una precisión del 88,05% en
los experimentos manteniendo un FPS de 122. Aunque ligeramente inferior en términos de velocidad en
comparación con YOLOv5, todavía cumple con los criterios para la detección de humo de incendios forestales en
tiempo real. En comparación con los otros modelos de la tabla, MVMNet es el modelo más adecuado para la
detección de humo de incendios forestales. Identificamos las siguientes posibles razones por las que nuestro
modelo MVMNet propuesto supera a los otros modelos de redes neuronales profundas:
(1) Debido a que nuestro conjunto de datos de humo de incendios forestales contiene solo 15,909 imágenes, lo cual
es modesto en comparación con los conjuntos de datos públicos abiertos a gran escala como COCO y VOC, pone a
prueba las capacidades de extracción de características del modelo. Además, los conjuntos de datos públicos
abiertos a gran escala son multiclase y están dominados por objetos que suelen ser comunes en la vida cotidiana,
como personas y automóviles, mientras que el humo es un objeto que generalmente es raro y difícil de detectar. Si
bien estos modelos tradicionales de redes neuronales profundas están diseñados para conjuntos de datos públicos
comunes a gran escala, MVMNet es una estructura bien diseñada para la investigación de detección de humo de
incendios forestales.
(2) VAM se centra en la extracción de características de la textura del humo. El efecto de la extracción de
características se mejora teniendo en cuenta las dimensiones horizontales y verticales, y hace una contribución
significativa a la mejora de la mAP.
(3) MVMNet employs a multioriented detection and PolyIoU calculation method that is more in line with the
features of smoke’s indeterminate direction, which can improve the IoU during detection and, as a result, the mAP.
(4) A hybrid nonmaximum suppression method is used to effectively reduce false detections and missed detections
that are caused by inappropriate threshold settings of traditional nonmaximum suppression methods, and the
combination of two nonmaximum suppression methods further improves the positioning accuracy of smoke
detection.
To more concisely reflect the advantages of MVMNet over popular solutions, we rank the top 10 classes of methods
in descending order of AP, AR, and FPS.
According to Table 8, the proposed MVMNet is able to maintain TOP-1 AP and AR in the forest fire multioriented
detection dataset. At the same time, it achieves 122 in the metric of FPS, second only to YOLOv5. Currently,
popular high-precision models usually have extremely high numbers of layers and parameters; thus, the perform
poorly in terms of FPS. Compared to popular methods, MVMNet shows a speed-accuracy trade-off.
In Table 9, we calculated Q statistics to indicate the difference between the top 10 AP methods and the MVMNet
classification abilities. In general, the smaller the degree of difference, the closer the Q statistics is to 1 [70].
Table 9 demonstrates that the Q statistics of DeepSmoke and GWD are relatively close to one, indicating that they
differ from MVMNet to a smaller amount. However, these two methods have just 33 FPS and 29 FPS, respectively,
whereas the remainder of the methods differs significantly from MVMNet. Popular high precision models typically
have extremely high layer and parametric counts. As a result, it performs poorly in terms of FPS. MVMNet has a
speed-accuracy trade-off when compared to popular methods.
4.4.2. Visualization experiments of MVMNet under complex backgrounds

Three representative images from the forest fire multioriented detection dataset were chosen to exhibit the
visualization results to demonstrate that MVMNet is up to the challenging task of forest fire smoke detection. The
smoke in image a is next to a cloud, which is also a smoke-like object; the smoke in image b is very thin and
translucent; and the smoke in image c is photographed against a hazy background. The smoke and the background
are almost the same. In addition, for comparison, FireNet, DCNN, and DeepSmoke are trained individually.
Table 10 displays the results of the comparative experiment.
The table shows that the clouds near the smoke in Figure a are misidentified as smoke by the FireNet, DCNN, and
DeepSmoke models but MVMNet identifies the smoke more accurately and does not misidentify the cloud. FireNet
and DCNN miss the thin and transparent smoke in Figure b. DeepSmoke detects fuzzy grass as smoke, which could
be due to a lack of extraction of smoke texture features. MVMNet performs fantastically. Because the background
colour is highly similar to the smoke in Figure c, FireNet, DCNN, and DeepSmoke fail, but MVMNet detects the
smoke appropriately. VAM is extremely likely to have played a role in the extraction of smoke features.
Table 10. Visual comparison with other fire smoke monitoring methods under complex backgrounds.
Experimental
Detection result
method
FireNet [41]
DCNN [42]
DeepSmoke [43]
Experimental
Detection result
method
MVMNet
un b c
4.5. Pruebas de aplicaciones reales

Replicamos un experimento de combustión de incendios forestales en Zhuzhou Forest Farm y lo probamos durante
4 meses utilizando el método de detección de humo de incendios forestales de MVMNet. Creamos un sistema de
detección de IoT de humo de incendios forestales basado en MVMNet combinando MVMNet y equipos de
hardware. Un módulo de recopilación de datos de humo, una computadora host y un módulo de procesamiento de
imágenes de humo son los componentes clave del sistema. La imagen de humo se captura con una cámara
panorámica de alta definición Hikvision DS-2DYH277IDU, y un fotograma de la imagen se captura como datos de
prueba cada 4 s. Luego, los datos de imagen recopilados se envían a través de la red al servidor para el
procesamiento de imágenes y la detección de destino. En el equipo host, los resultados de la prueba se pueden
mostrar en tiempo real. La Fig. 19 presenta un diagrama esquemático del sistema.
Cuando se detecta humo, nuestras cámaras pueden capturarlo y hacer sonar una alarma. La Fig. 20 muestra una
comparación de YOLOv5 y MVMNet en las tres categorías de humo reconocidas. Para probar en cada categoría,
seleccionamos 20 escenas de la vida real. Como se muestra en la figura, las precisiones de reconocimiento de
YOLOv5 y MVMNet son 100% en la categoría A, 85% y 65% en la categoría B, y 60% y 20% en la categoría C,
respectivamente.
Figura 19. Diagrama esquemático del sistema de detección de humo de incendios forestales de IoT que se basa en
MVMNet.
MVMnet se desempeña admirablemente en la prueba de aplicación real y maneja con éxito los tres escenarios que
se representan en la Fig. 1. El objetivo de humo en la Fig. 21.a es modesto y en un ángulo de 45 grados con respecto
al suelo. La Fig. 21.b muestra una situación en la que el área de humo es grande pero la concentración de humo es
baja y el color es claro. La Fig. 21.c representa un caso en el que el objetivo de humo es pequeño. MVMNet es capaz
de detectar el humo en todos los escenarios anteriores. Los resultados de la aplicación en estos escenarios del
mundo real demuestran el rendimiento superior de MVMNet en la tarea de detección de humo.
Figura 20. Resultados de reconocimiento de MVMNet y YOLOv5 para tres tipos de humo. La Clase A se refiere a los
casos con una densidad y tamaño de humo medio, la Clase B se refiere a los casos con una densidad de humo baja y
características deficientes, y la Clase C se refiere a los casos en los que el objetivo de humo es pequeño y difícil de
encontrar.
Figura 21. Aplicaciones reales.
5. Discusión
Se produce un conjunto de datos de detección multiorientada de incendios forestales para la detección
multiorientada del humo del fuego, que cubre una amplia gama de características de humo que ocurren durante un
incendio. La eficacia del modelo MVMNet propuesto para la detección de humo de incendios forestales se verifica a
través de la comparación y el análisis de varios conjuntos de experimentos. En particular, el modelo resuelve bien
tres problemas principales, a saber, la confusión del humo con las nubes y otros objetos similares al humo, la
inclinación del humo y la larga distancia entre el punto de combustión y la cámara.
Muchos conjuntos de datos de video de humo ya están en uso público. Sin embargo, estudios previos en el campo
de la detección de humo de incendios forestales aún no han puesto a disposición del público conjuntos de datos de
imágenes. Como resultado, el conjunto de datos de detección multiorientada de incendios forestales que ofrecemos
puede ayudar a respaldar el uso de métodos de aprendizaje profundo basados en imágenes en la preservación del
medio ambiente ecológico.
El análisis de las muestras detectadas incorrectamente proporciona información útil para mejorar el rendimiento
de nuestra red propuesta. El modelo MVMNet está diseñado como un vector de perspectiva donde se divide en 180
clases, a saber, . Dado que el modelo está diseñado como una tarea de clasificación, podemos evitar el problema de
límite que se plantea en la tarea de regresión. Sin embargo, en nuestro conjunto de datos, el número de ángulos que
corresponden a clases distintas varía ampliamente, lo que da lugar a un problema de desequilibrio entre clases.
Como se muestra en la Fig. 22, el problema del desequilibrio interclase puede conducir al dominio de las categorías
más numerosas en la retropropagación, con el detector tendiendo a predecir las categorías más numerosas. Como
resultado, los ángulos predichos diferirán de los ángulos verdaderos.
Para abordar tales dificultades, consideraremos mitigar este problema en trabajos futuros mediante la
determinación de la información angular utilizando una etiqueta circular lisa. Al mismo tiempo, el número de
imágenes en el conjunto de datos debe aumentarse tanto como sea posible para garantizar que se mejore aún más y
se equilibre más.
Figura 22. Desviación angular debida al desequilibrio interclase.
6. Conclusiones y perspectivas
Los algoritmos de detección de humo basados en el aprendizaje profundo se han vuelto cada vez más populares en
la detección de incendios forestales en los últimos años. Propusimos un MVMNet para la detección de humo de
incendios forestales para mejorar la precisión y la eficacia de la detección de objetivos de humo de incendios
forestales. Primero, propusimos la detección multiorientada para ajustarse a la dirección del humo, seguida de
VAM para mejorar la capacidad de extraer las características del humo. Para preservar más información,
reemplazamos MaxPool en SPP con SoftPool. Finalmente, en la etapa de postprocesamiento de YOLOv5
reemplazamos el NMS original por Mixed-NMS, resolviendo así los problemas de detección errónea y detección
perdida que ocurren comúnmente en la detección de humo de incendios forestales y mejorando la precisión de la
detección del objetivo. Más importante aún, MVMNet mejora la precisión y la efectividad del modelo YOLO en la
detección de humo de incendios forestales, y es fácil de entrenar y utilizar. Esto abre nuevas vías para utilizar el
aprendizaje profundo en la prevención y gestión de incendios forestales. En nuestro experimento, utilizamos una
proporción de 7: 2: 1 para dividir los datos de imagen 15909 del conjunto de datos de detección multiorientada de
incendios forestales en un conjunto de entrenamiento, un conjunto de validación y un conjunto de prueba.
MVMNet alcanzó un mAP50 de 88,05% y un FPS de 122, superando así los métodos comparados y demostrando la
efectividad del modelo que desarrollamos.
Los resultados experimentales mostraron que el método de detección de objetos MVMNet propuesto podría
identificar eficazmente el humo en el conjunto de datos de humo, pero en la práctica, todavía hay lagunas en su
aplicación a la prevención y el control de incendios forestales.
En el futuro, se recopilarán tantas imágenes en entornos complejos como sea posible para descubrir más
correlaciones entre las características morfológicas y detalladas del humo y su entorno y para combinar la
información semántica en el entorno con la información de la característica del humo para mejorar la precisión del
reconocimiento del humo de los incendios forestales. Además, sería útil desplegar drones para obtener imágenes
forestales y crear modelos de drones. Los métodos que se propusieron en este documento se pueden aplicar a la
prevención y el control de incendios forestales para promover la detección rápida y efectiva de incendios forestales
y una respuesta organizada a los incendios.
Financiación
Este trabajo fue apoyado por la Fundación Nacional de Ciencias Naturales en China (Subvención No. 61703441); en
parte por el Proyecto Clave del Departamento de Educación de la Provincia de Hunan (Subvención No. 21A0179);
en parte por la Fundación Municipal de Ciencias Naturales de Changsha (Subvención No. kq2014160); en parte por
Hunan Key Laboratory of Intelligent Logistics Technology (2019TP1015).
Declaración de contribución de autoría de CRediT

Yaowen Hu: Metodología, Redacción – borrador original, Conceptualización. Jialei Zhan: Software,
Adquisición de datos, Investigación. Guoxiong Zhou: Validación, Administración de proyectos. Aibin Chen:
Supervisión, Adquisición de financiación. Weiwei Cai: Guía del modelo. Kun Guo: Curación de datos. Yahui
Hu: Análisis formal, Recursos. Liujun Li: Visualización, Escritura – revisión y edición.
Declaración de interés concurrente

Los autores declaran que no tienen intereses financieros en competencia conocidos o relaciones personales que
podrían haber parecido influir en el trabajo reportado en este artículo.
Agradecimientos
Agradecemos a todos los miembros del Centro de Investigación de Información Forestal por su asesoramiento y
asistencia en el curso de esta investigación. El idioma de nuestro manuscrito ha sido refinado y pulido por Elsevier
Language Editing Services (número de serie: LE-229528-CD224E4C9C79)
Recommended articles
Disponibilidad de datos de apoyo

Algunos de los conjuntos de datos que se utilizaron y/o analizaron en este estudio se han subido al
sitio web https://github.com/guokun666/Forest_Fire_Smoke_DATA.git. Además, hemos adjuntado
el código de conversión de formato para xml-YOLO. Todos los conjuntos de datos caseros en este
estudio (15909 hojas en total) se pueden obtener poniéndose en contacto con el autor
correspondiente.
Referencias
[1] Lucas-Borja M.E., González-Romero J., Plaza-Álvarez P.A., Sagra J., Gómez M.E., Moya D., Heras J., et al.
El impacto del acolchado de paja y la tala de salvamento en la escorrentía posterior al
incendio y la generación de erosión del suelo en condiciones climáticas mediterráneas
Sci. Total Environ., 654 (2019), pp. 441-451, 10.1016/j.scitotenv.2018.11.161
View PDF Ver registro en Scopus Google Académico
[2] Lucas-Borja M.E., Hedo J., Cerdá A., Candel-Pérez D., Viñegla B.
Desentrañar la importancia del rodal de edad forestal y la estructura forestal que impulsa las
propiedades microbiológicas del suelo, las actividades enzimáticas y el contenido de
nutrientes del suelo en el bosque mediterráneo de pino negro español (pinus nigra ar. ssp.
salzmannii)
Sci. Total Environ., 562 (2016), págs. 145-154, 10.1016/j.scitotenv.2016.03.160
[3] Pan Y., Birdsey R.A., Phillips O.L., Jackson R.B.

La estructura, distribución y biomasa de los bosques del mundo
Annu. Rev. Ecol. Evol. Syst., 44 (2013), págs. 593-622, 10.1146/annurev-ecolsys-110512-135914
[4] Martinez-de Dios J.R., Arrue B.C., Ollero A., Merino L., Gómez-Rodríguez F.
Técnicas de visión artificial para la percepción de incendios forestales
Image Vis. Comput., 26 (4) (2008), págs. 550-562, 10.1016/j.imavis.2007.07.002
[5] Harrison M.E., Página S.E., Limin S.H.

El impacto global de los incendios forestales indonesios
Biólogo, 56 (3) (2009), pp. 156-163
https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.709.6831&rep=rep1&type=pdf
Ver registro en Scopus Google Académico
[6] Ertugrul M., Varol T., Ozel H.B., Cetin M., Sevik H.
Influencia del factor climático de los cambios en el peligro de incendio forestal y la duración
de la temporada de incendios en Turquía
Medio ambiente. Monit. Assess., 193 (1) (2021), págs. 1-17, 10.1007/s10661-020-08800-6
[7] Lucas-Borja M.E., Zema D.A., Carrà . B.G., Cerdà A., Plaza-Alvarez P.A., Cózar J.S., Heras J., et al.
Cambios a corto plazo en la infiltración entre suelos cubiertos con y sin mantillo después de
un incendio forestal en ecosistemas forestales mediterráneos
Ecol. Ing., 122 (2018), pp. 27-31, 10.1016/j.ecoleng.2018.07.018
[8] Tian L., Cao Y., He B., Zhang Y., He C., Li D.

Mejora de la imagen impulsada por las características del objeto y la red de reutilización de
características densas para la detección de objetivos de buques en imágenes de teledetección
Teledetección., 13 (7) (2021), p. 1327, 10.3390/rs13071327
[9] Huang W., Li G., Chen Q., Ju M., Qu J.

CF2PN: Una función de fusión a escala cruzada basada en la red de detección de objetivos de
teledetección
View PDF Google Académico
[10] He L., Gong X., Zhang S., Wang L., Li F.

CNN de fusión profunda basada en la atención eficiente para la detección de humo en
entornos de niebla
Neurocomputación, 434 (2021), pp. 224-238, 10.1016/j.neucom.2021.01.024
[11] Sheng D., Deng J., Xiang J.

Detección automática de humo basada en la red neuronal convolucional mejorada SLIC-
DBSCAN
IEEE Access, 9 (2021), págs. 63933-63942
http://dx.doi.org.tdea.basesdedatosezproxy.com/10.1109/ACCESS.2021.3075731
View PDF CrossRef Ver registro en Scopus Google Académico
[12] Zhao E., Liu Y., Zhang J., Tian Y.

Reconocimiento de humo de incendios forestales basado en el método de generación
adaptativa de la caja de anclaje
Electrónica, 10 (5) (2021), p. 566, 10.3390/electronics10050566
[13] Kaufmann H., Segl K., Chabrillat S., Hofer S., Stuffler T., Mueller A., Bach H., et al.
EnMAP un sensor hiperespectral para mapeo y análisis ambiental
En 2006 IEEE International Symposium on Geoscience and Remote Sensing, IEEE (2006), págs. 1617-1619,
10.1109/IGARSS.2006.417
[14] Cheon J., Lee J., Lee I., Chae Y., Yoo Y., Han G.
Un sensor de humo y temperatura CMOS de un solo chip para un detector de incendios
inteligente
IEEE Sens. J., 9 (8) (2009), págs. 914-921, 10.1109/JSEN.2009.2024703
Lu J., Behbood V., Hao P., Zuo H., Xue S., Zhang G.
[15]
Transferencia de aprendizaje mediante inteligencia computacional: una encuesta
Knowl.-Based Syst., 80 (2015), pp. 14-23, 10.1016/j.knosys.2015.01.010
[16] Lu J., Liu A., Dong F., Gu F., Gama J., Zhang G.
Aprendizaje bajo la deriva conceptual: una revisión
IEEE Trans. Knowl. Data Eng., 31 (12) (2018), pp. 2346-2363, 10.1109/TKDE.2018.2876857
[17] Krstinić D., Stipaničev D., Jakovčević T.

Segmentación de humo basada en histograma en sistema de detección de incendios
forestales
Inf. Technol. Control, 38 (3) (2009))
https://www.itc.ktu.lt/index.php/ITC/article/view/12105
Google Académico
[18] Gubbi J., Marusic S., Palaniswami M.

Detección de humo en vídeo mediante wavelets y máquinas vectoriales de soporte
Fuego Saf. J., 44 (8) (2009), págs. 1110-1115, 10.1016/j.firesaf.2009.08.003
[19] Surit S., Chatwiriya W.

Detección de humo de incendios forestales en vídeo basado en el enfoque de procesamiento
digital de imágenes con análisis de características estáticas y dinámicas
2011 Primera Conferencia Internacional ACIS/JNU sobre Computadoras, Redes, Sistemas e Ingeniería
Industrial (2011), pp. 35-39, 10.1109/CNSI.2011.47
[20] Chen T., Yin Y., Huang S., et al.

La detección de humo para el sistema de alarma temprana de incendios se basa en el
procesamiento de video[C].ocultación de información
(2006)
http://dx.doi.org.tdea.basesdedatosezproxy.com/10.1109/IIH-MSP.2006.265033
Google Académico
[21] Yu C.Y., Yongming Z., Jun F., et al.

Análisis de textura de humo para detección de incendios en tiempo real en[C]
International Workshop on Computer Science & Engineering, IEEE (2010), 10.1109/WCSE.2009.864
[22] Yuan F., Xia X., Shi J.

Descriptor holístico de características de alto orden basado en el aprendizaje para el
reconocimiento de humo
Int. J. Wavelets Multiresolut. Inf. Proceso., 17 (02) (2019), Artículo 1940005, 10.1142/S0219691319400058
[23] Fujiwara N., Terada K.

Extracción de una región de humo mediante codificación fractal
IEEE International Symposium on Communications and Information Technology, Vol. 2, ISCIT 2004, IEEE
(2004), págs. 659 a 662, 10.1109/ISCIT.2004.1413797
[24] Gubbi J., Marusic S., Palaniswami M.

Detección de humo en vídeo mediante wavelets y máquinas vectoriales de soporte
Fuego Saf. J., 44 (8) (2009), págs. 1110-1115
[25] Verstockt S., Hoecke S.Van., Beji T., Merci B., Gouverneur B., Cetin A.E., Walle R., et al.
Un enfoque de análisis de vídeo multimodal para la detección de incendios en aparcamientos
Fuego Saf. J., 57 (2013), págs. 44-57, 10.1016/j.firesaf.2012.07.005
[26] Tian L., Wang J., Zhou H., Wang J.

Detección automática de perturbaciones de incendios forestales basada en modelos
dinámicos a partir de observaciones de series temporales MODIS
Int. J. Remote Sens., 39 (12) (2018), págs. 3801-3815, 10.1080/01431161.2018.1437294
[27] Gaur A., Singh A., Kumar A., Kumar A., Kapoor K.
Algoritmos de detección de incendios basados en fuego y humo en video: una revisión de la
literatura
Tecnología contra incendios, 56 (5) (2020), pp. 1943-1980
[28] Girshick R., Donahue J., Darrell T., Malik J.

Jerarquías de características enriquecidas para una detección precisa de objetos y
segmentación semántica
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Vol. 58 (2014), pp. 0-
587, 10.1109/CVPR.2014.81
[29] J. Redmon, S. Divvala, R. Girshick, A. Farhadi, You only look once: Unified, real-time object detection, en:
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Vol. 77, 2016, pp. 9–788.
Google Académico
[30] J. Redmon, A. Farhadi, YOLO9000: better, Faster, Stronger, en: Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition, Vol. 726, 2017, pp. 3–7271.
Google Académico
[31] Redmon J., Farhadi A.

Yolov3: Una mejora incremental
(2018)
arXiv preprint arXiv:1804.02767
Google Académico
[32] T.Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, S. Belongie, Feature pyramid networks for object
detection, en: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp.
2117–2125.
Google Académico
Bochkovskiy A., Wang C.Y., Liao H.Y.M.
[33]
Yolov4: Velocidad y precisión óptimas de detección de objetos
(2020)
Google Académico
[34] Ultralíticos, disponibles en https://github.com/ultralytics/yolov5.

Google Académico
[35] X. Qiang, G. Zhou, A. Chen, X. Zhang, W. Zhang, Forest fire smoke detection under complex backgrounds
using trpca and tsvb, Int. J. Wildland Fire
http://dx.doi.org.tdea.basesdedatosezproxy.com/10.1071/WF20086.
Google Académico
[36] Yang X., Yang J., Yan J., Zhang Y., Zhang T., Guo Z., Fu K., et al.
Scrdet: Hacia una detección más robusta para objetos pequeños, desordenados y rotados
Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computador (2019), pp. 8232-8241,
10.1109/ICCV.2019.00832
[37] He K., Zhang X., Ren S., Sun J.

Agrupación de pirámides espaciales en redes convolucionales profundas para el
reconocimiento visual
IEEE Trans. Pattern Anal. Mach. Intell., 37 (9) (2015), pp. 1904-1916
Google Académico
[38] Stergiou A., Poppe R., Kalliatakis G.

Reducción de la activación de refinación con softpool
(2021)
Google Académico
[39] Ma J., Shao W., Ye H., Wang L., Wang H., Zheng Y., Xue X.
Detección de texto de escena orientada arbitrariamente a través de propuestas de rotación
IEEE Trans. Multimed., 20 (11) (2018), pp. 3111-3122, 10.1109/TMM.2018.2818020
[40] Ge Z., Liu S., Wang F., Li Z., Sun J.

Yolox: Superando la serie yolo en 2021
(2021)
arXiv preprint arXiv:2107.08430 https://arxiv.org/abs/2107.08430
Google Académico
[41] Jadon A., Omama M., Varshney A., Ansari M.S., Sharma R.
FireNet: un modelo especializado de detección ligera de incendios y humos para aplicaciones
de IoT en tiempo real
(2019)
arXiv preprint arXiv:1905.11922 https://arxiv.org/pdf/1905.11922.pdf
Google Académico
[42] Gu K., Xia Z., Qiao J., Lin W.

Red neuronal profunda de doble canal para la detección de humo basada en imágenes
IEEE Trans. Multimed., 22 (2) (2019), pp. 311-323
http://dx.doi.org.tdea.basesdedatosezproxy.com/10.1109/TMM.2019.2929009
Google Académico
[43] Khan S., Muhammad K., Hussain T., Del Ser J., Cuzzolin F., Bhattacharyya S., et al.
Deepsmoke: Modelo de aprendizaje profundo para la detección y segmentación de humo en
entornos al aire libre
Expert Syst. Appl., 182 (2021), Artículo 115125, 10.1016/j.eswa.2021.115125
[44] Yang X., Yang J., Yan J., Zhang Y., Zhang T., Guo Z., Fu K., et al.
Scrdet: Hacia una detección más robusta para objetos pequeños, desordenados y rotados
Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computador (2019), pp. 8232-8241
https://openaccess.thecvf.com/content_ICCV_2019/papers/Yang_SCRDet_Towards_More_Robust_Detec
tion_for_Small_Cluttered_and_Rotated_ICCV_2019_paper.pdf
[45] Jiang Y., Zhu X., Wang X., Yang S., Li W., Wang H., Luo Z., et al.
R2cnn: región de rotación cnn para la orientación robusta detección de texto de escena
(2017)
arXiv preprint arXiv:1706.09579 https://arxiv.org/ftp/arxiv/papers/1706/1706.09579.pdf
Google Académico
[46] Bao R., Palaniappan K., Zhao Y., Seetharaman G., Zeng W.
GLSNet: Red de flujos globales y locales para la clasificación de nubes de puntos 3D
2019 IEEE Applied Imagery Pattern Recognition Workshop, AIPR, IEEE (2019), pp. 1-9
http://dx.doi.org.tdea.basesdedatosezproxy.com/10.1109/AIPR47015.2019.9174587
[47] Li C., Xu C., Cui Z., Wang D., Zhang T., Yang J.
Detección de objetos atendida en imágenes de teledetección
2019 IEEE International Conference on Image Processing, ICIP, IEEE (2019), pp. 3886-3890
http://dx.doi.org.tdea.basesdedatosezproxy.com/10.1109/ICIP.2019.8803521
[48] Wang Y., Zhang Y., Zhang Y., Zhao L., Sun X., Guo Z.
Sard:Hacia la detección de objetos rotados consciente de la escala en imágenes aéreas
IEEE Access, 7 (2019), págs. 173855-173865
http://dx.doi.org.tdea.basesdedatosezproxy.com/10.1109/ACCESS.2019.2956569
[49] Fu K., Chang Z., Zhang Y., Xu G., Zhang K., Sun X.
Red neuronal convolucional consciente de la rotación y multiescala para la detección de
objetos en imágenes de teledetección
ISPRS J. Fotograma. Teledetección., 161 (2020), pp. 294-308, 10.1016/j.isprsjprs.2020.01.025
View PDF View Record in Scopus Google Scholar
[50] Zhu Y., Wu X., Du J.

Adaptive period embedding for representing oriented objects in aerial images
(2019)
arXiv preprint arXiv:1906.09447,
http://dx.doi.org.tdea.basesdedatosezproxy.com/10.1109/TGRS.2020.2981203
Google Scholar
[51] Wei J., Wang S., Huang Q.

F3net: Fusion, feedback and focus for salient object detection
Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 34, No. 07 (2020), pp. 12321-12328,
10.1609/aaai.v34i07.6916
View PDF Google Scholar
[52] Yang X., Yan J.

Arbitrary-oriented object detection with circular smooth label
(2020)
arXiv preprint arXiv:2003.05597, https://arxiv.org/pdf/2003.05597.pdf
Google Scholar
[53] Qin R., Liu Q., Gao G., Huang D., Wang Y.
MRDet: A multi-head network for accurate oriented object detection in aerial images
(2020)
Google Académico
[54] Yang X., Yan J., Yang X., Tang J., Liao W., He T.
Scrdet++: Detección de objetos pequeños, desordenados y rotados a través de la eliminación
de ruido de características a nivel de instancia y el suavizado de pérdida de rotación
(2020)
Google Académico
[55] Fu Kun, Chang Zhonghan, Zhang Yue, Sun Xian

Estimador basado en puntos para la detección de objetos orientados arbitrariamente en
imágenes aéreas
IEEE Trans. Geosci. Teledetección (2020))
Google Académico
[56] Feng Pengming, Lin Youtian, Guan Jian, He Guangjun, Shi Huifeng, Chambers Jonathon
Toso: La distribución de Student'st ayudó a la detección de objetivos de orientación de una
etapa en imágenes de teledetección
ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE
(2020), pp. 4057-4061
https://arxiv.org/pdf/2101.11952.pdf
[57] Xiao Zhifeng, Wang Kai, Wan Qiao, Tan Xiaowei, Xu Chuan, Xia Fanfan
A2s-det: Coincidencia de anclaje de eficiencia en la detección de objetos orientada a
imágenes aéreas
[58] Pan Xingjia, Ren Yuqiang, Sheng Kekai, Dong Weiming, Yuan Haolei, Guo Xiaowei, Ma Chongyang, Xu
Changsheng
Red de refinamiento dinámico para la detección de objetos orientados y densamente
empaquetados
Actas de la Conferencia IEEE sobre Visión por Computadora y Reconocimiento de Patrones (2020), pp.
11207-11216
https://arxiv.org/pdf/2101.11952.pdf
Google Académico
[59] Sun Peng, Zheng Yongbin, Zhou Zongtan, Xu Wanying, Ren Qiang
R4det: Detector refinado de una sola etapa con recursividad y refinamiento de
características para la detección de objetos giratorios en imágenes aéreas
Image Vis. Comput., 103 (2020), Artículo 104036, 10.1016/j.imavis.2020.104036
[60] Yang Xue, Yan Junchi, Feng Ziming, He Tao

R3det: Detector refinado de una sola etapa con refinamiento de características para girar
objetos
Actas de la Conferencia AAAI sobre Inteligencia Artificial (2021))
https://www.aaai.org/AAAI21Papers/AAAI-364.YangX.pdf
Google Académico
[61] Zhao Pengbo, Qu Zhenshen, Bu Yingjia, Tan Wenming, Ren Ye, Pu Shiliang
Polardet: Un detector rápido y más preciso para el objetivo girado en imágenes aéreas
(2020)
http://dx.doi.org.tdea.basesdedatosezproxy.com/10.1080/01431161.2021.1931535
Google Académico
[62] Zhong Bo, Ao Kai

Single-stage rotation-decoupled detector for oriented object
Remote Sens., 12 (19) (2020), p. 3262, 10.3390/rs12193262
[63] Han Jiaming, Ding Jian, Li Jie, Xia Gui-Song

Align deep features for oriented object detection
(2020)
arXiv preprint arXiv:2008.09397,
Google Scholar
[64] Chafaï Djalil

Wasserstein distance between two gaussians. Website
(2010)
https://djalil.chafai.net/blog/2010/04/30/wassersteindistance-between-two-gaussians/
Google Scholar
[65] Purkait P., Zhao C., Zach C.

SPP-Net: Deep absolute pose regression with synthetic views
(2017)
Google Scholar
[66] Girshick R.
Fast r-cnn
Proceedings of the IEEE International Conference on Computer Vision (2015), pp. 1440-1448,
10.1109/ICCV.2015.169
[67] Ren S., He K., Girshick R., Sun J.

Faster R-CNN: towards real-time object detection with region proposal networks
IEEE Trans. Pattern Anal. Mach. Intell., 39 (6) (2016), pp. 1137-1149, 10.1109/TPAMI.2016.2577031
[68] Sermanet P., Eigen D., Zhang X., Mathieu M., Fergus R., LeCun Y.
Overfeat: Integrated recognition, localization and detection using convolutional networks
(2013)
Google Scholar
[69] Liu W., Anguelov D., Erhan D., Szegedy C., Reed S., Fu C.Y., Berg A.C.
Ssd: Single shot multibox detector
European Conference on Computer Vision, Springer, Cham (2016), pp. 21-37
Google Scholar
[70] Zhang Ning, Chen Qin

Ensemble learning training method based on AUC and Q statistics
J. Comput. Appl., 39 (04) (2019), pp. 935-939, 10.11772/j.issn.1001-9081.2018102162
Citado por (10)
Un enfoque de detección de humo de incendios forestales de alta precisión basado en ARGNet

2022, Informática y electrónica en la agricultura
Mostrar resumen
Un método de reconocimiento de incendios forestales utilizando imágenes UAV basadas en el

aprendizaje de transferencia
2022, Bosques
Construcción del modelo de evaluación del entorno de enseñanza de inglés universitario basado en la
red neuronal bp y la teoría de la inteligencia múltiple
2022, Revista de Medio Ambiente y Salud Pública
Función metafórica y cognición emocional de los préstamos en inglés en el entorno de Internet

2022, Revista de Medio Ambiente y Salud Pública
Detección de objetivos de fruta basado en el modelo BCo-YOLOv5

2022, Sistemas de Información Móvil
Construcción de recursos de enseñanza digital de la literatura británica y estadounidense utilizando el

aprendizaje de pocas tomas y la computación en la nube
2022, Inteligencia Computacional y Neurociencia
Ver todos los artículos que citan sobre Scopus
1
Yaowen Hu y Jialei Zhan contribuyen igualmente a este trabajo.
© 2022 El(los) Autor(es). Publicado por Elsevier B.V.
Copyright © 2022 Elsevier B.V. o sus licenciantes o colaboradores.

ScienceDirect® is a registered trademark of Elsevier B.V.

Fast Forest Fire Smoke Detection Using MVMNet ESPAÑOL

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Fast Forest Fire Smoke Detection Using MVMNet ESPAÑOL

Cargado por

Copyright:

Formatos disponibles

Sistemas basados en el conocimiento

Volumen 241, 6 de abril de 2022, 108219

Detección rápida de humo de incendios forestales mediante MVMNet

Outline Compartir Cite

https://doi.org/10.1016/j.knosys.2022.108219 Obtener derechos y contenido

Artículo anterior Siguiente

Figura 1. Factores de interferencia de detección de humo.

Las contribuciones de este documento se resumen de la siguiente manera:

Figura 2. Flujo de trabajo de MVMNet.

3.1. Adquisición de datos

Download : Download high-res image (115KB) Download : Download full-size image

Fig. 5. Dataset format conversion steps.

3.2. YOLOv5 backbone

Figura 6. Estructuras de MVMNet y YOLOv5.

3.3.1. Detección multiorientada

a) PolyIoU para una caja de anclaje multiorientada

Download : Download high-res image (289KB) Download : Download full-size image

Fig. 7. Smoke in three directions.

El área de intersección de las cajas rectangulares se calcula utilizando la fórmula (6).

3.3.2. Agrupación piramidal espacial de Softpool (Soft-SPP)

Figura 9. Proceso de ponderación exponencial de SoftPool.

Figura 10. Módulo Soft-SPP.

3.3.3. Módulo del mecanismo de conversión-atención de valor (VAM)

En el procesamiento de características de humo utilizando VAM, en primer lugar, utilizamos el análisis de

Figura 11. Flujo del algoritmo VAM.

a) Estrategia de distribución horizontal y vertical

b) Estrategia aditiva de coeficiente ponderado

c) Estrategia de asignación de pesos

Figura 12. Proceso de concatenación y fusión.

Figura 13. Estrategia de asignación de peso.

3.3.4. Algoritmo NMS mixto para procesar tramas candidatas

Figura 14. Efecto del ángulo en el IoU.

Figura 15. Significados de y en el DIoU.

4.1. Entorno y entornos experimentales

Tabla 1. Parámetros de hardware y software.

Gpu GPU portátil NVIDIA GeForce RTX 3060

Kit de herramientas CUDA V11.1;

antorcha 1.8.1; torchvision 0.9.1

Tabla 2. Entornos experimentales.

512 × 512 1 0.8 0.005 0.0005 150 épocas

4.2. Análisis de la eficacia del módulo

4.2.1. Eficacia de Soft-SPP

Tabla 3. Rendimiento de SoftPool para Soft-SPP.

Método mapa50 (%) mapa75 (%) Ar Fps Parámetros Flop

Spp 77.12 69.25 41.52 156 22,0 M 51B

Promedio-SPP 76.98 69.11 41.34 150 22,1 M 51B

Med-SPP 76.81 68.97 41.21 155 22,0 M 51B

Promedio + Max-SPP 77.37 69.51 41.79 148 22,3 M 52B

Soft-SPP 79.98 70.93 43.86 146 22,4 M 53B

4.2.2. Eficacia de la VAM

Figura 16. Correspondencia entre mAP50 y el factor de asignación de peso.

El módulo de mecanismo de atención mejora la precisión de detección después de la adición de SE Attention y

Tabla 4. Rendimiento de VAM.

Método mapa50 (%) mapa75 (%) Ar Fps Parámetros Flop

Sin mejoras 77.12 69.25 41.52 156 22,0 M 51B

Atención SE 79.28 71.79 43.16 139 22,5 M 55B

Atención CBAM 79.69 72.14 43.88 132 22,7 M 57B

VAM 84.39 76.12 47.63 134 22,7 M 56B

4.2.3. Eficacia de PolyIoU

Figura 17. mapa50 resultados de tres métodos.

4.2.4. Eficacia del SMN mixto

4.3. Experimentos de ablación

Tabla 5. Resultados del experimento de ablación.