Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sobre Liujun c
Mostrar más
Palabras clave
Detección de humo de incendios forestales; Módulo de mecanismo de conversión-atención de valor;
multiorientado; Softpool-pirámide espacial agrupación; Mixto-NMS
1. Introducción
Los bosques son un componente importante del ecosistema de la Tierra, y su protección es responsabilidad de
todos [1] Un incendio forestal es un desastre natural incontrolado y sin restricciones que amenaza las tierras
boscosas [2] En los últimos años, los incendios forestales se han vuelto más frecuentes, y su alcance de daño ha
aumentado cada año [3]. Los incendios forestales destruyen millones de hectáreas de bosque cada año y causan
una serie de desastres ambientales, que incluyen principalmente el calentamiento global, y los gobiernos han
gastado decenas de miles de millones de dólares en la lucha contra estos incendios [4]. Los incendios forestales no
solo dañan el ecosistema, sino que también representan un peligro potencial para la supervivencia y el desarrollo
humanos [5]. Los incendios forestales son impredecibles y generalmente ocurren en áreas forestales aisladas [6]. Si
un incendio forestal no se detecta a tiempo, puede propagarse fácilmente, causando así un mayor daño al
ecosistema y planteando un mayor desafío a los esfuerzos de extinción de incendios [7]. El ardor es la causa más
común de incendios forestales. El humo es el primer signo de un incendio forestal. Es fundamental acortar el
tiempo de respuesta de la lucha contra los incendios forestales y la gravedad de los daños causados por los
incendios forestales mediante la detección efectiva del humo a tiempo y la identificación de la región donde se
produce el humo.
Varios problemas deben abordarse de inmediato en la escena actual de detección de humo de incendio forestal
(como se muestra en la Fig. 1): (1) Humo inclinado. Cuando ocurre un incendio forestal, el humo tiende a inclinarse
debido a los impactos del medio ambiente circundante y el clima, lo que revela información útil como la dirección
del viento y la ubicación de la fuente del incendio. Anteriormente, la caja de detección horizontal que se empleaba
para la detección de objetivos pasaba por alto información útil y carecía de consistencia. (2) Detección errónea de
objetos que son similares al humo. En el complicado y cambiante entorno forestal, hay muchos fenómenos
similares al humo, como nubes en movimiento en el cielo y niebla en la atmósfera. Estos fenómenos tienen
características similares al humo, y las redes tradicionales de extracción de características luchan por detectar las
diferencias. (3) El humo está demasiado lejos. Cuando el punto de combustión está lejos de la cámara, la confianza
de la caja de detección es baja y se filtra, lo que aumenta la dificultad de detección de humo.
Para manejar el problema de la inclinación del humo, L Tian et al. propusieron un marco de detección que consiste
en un módulo de mejora de imagen y un módulo de reutilización de características densas para abordar las
características densamente dispuestas de los objetos en escenarios de teledetección [8]. En el entorno de la
teledetección, W Huang et al. sugirieron una red piramidal de fusión de características a escala cruzada y
emplearon una caja de detección multiorientada para adaptarse a objetivos como los barcos inclinados [9]. El
método de detección multiorientada de la escena de detección remota nos ha inspirado, y la caja de detección
multiorientada se adapta bien a las peculiaridades del humo que vuela en el viento. Como resultado, proponemos
un método de detección multiorientado en el que la caja objetivo puede describir adaptativamente la dirección del
humo y tiene relevancia de referencia para determinar la dirección de la fuente de incendio. Utilizamos el método
PolyIOU para calcular el grado de superposición entre las cajas de anclaje para adaptarnos a la detección
multiorientada y crear el conjunto de datos de detección multiorientada de incendios forestales.
Descargar : Descargar imagen de alta resolución (356KB) Descargar : Descargar imagen a tamaño completo
L He et al. propusieron un módulo de mecanismo de atención que integra la atención espacial y canaliza la atención
para abordar el problema de la detección falsa de elementos similares al humo en climas nublados [10]. D Sheng et
al. propusieron la sobresegmentación de píxeles para ayudar a la red neuronal convolucional a extraer las
características del humo y reducir la probabilidad de detección falsa [11]. Aunque estos métodos son simples y
efectivos, tienen dificultades para superar el problema de la pérdida de información durante el proceso de
extracción de características, y aún así resultan en detecciones falsas en fondos complicados, como nubes en el cielo
que se identifican erróneamente como humo. Como consecuencia, proponemos un Soft-SPP, que puede aliviar el
problema de la pérdida de información de características causada por los tamaños de entrada inconsistentes de las
imágenes de humo al tiempo que preserva más información de características al sustituir MaxPool con operaciones
de SoftPool. A continuación, se propone un mecanismo de conversión-atención de valor (VAM), que emplea la
información de la característica de color y textura de la imagen de humo al tiempo que mejora la distribución del
peso de la información de textura basada en la estrategia de asignación de peso conjunta en las direcciones
horizontal y vertical.
E Zhao et al. introdujeron un método de caja de detección adaptativa para limitar la ocurrencia de detección
perdida en tareas de detección de humo de incendios forestales, lo que aumentó sustancialmente la velocidad de
detección de Faster-RCNN y redujo la ocurrencia de detección perdida [12]. Este método, sin embargo, tiene
limitaciones y solo es apropiado para modelos de detección de objetivos de dos etapas. Basándonos en Skew-NMS y
DIoU-NMS, rediseñamos el método Mixed-NMS en este documento para superar el problema de la detección
perdida causada por humo similar a largas distancias. Skew-NMS considera la información de ángulo y umbral en
la detección multiorientada del objetivo de humo para determinar la información de la caja de anclaje, mientras
que DIoU-NMS considera el área de superposición y la distancia del punto central. Cuando el punto de combustión
está lejos de la cámara o varias nubes de humo están cerca una de la otra, la combinación de estos dos métodos
NMS puede adaptarse mejor a la forma real del humo y resolver el problema de la detección perdida.
(1) Se propone un método de detección multiorientado para describir el estado direccional del humo. Además, para
dar cabida a la detección multiorientada, creamos el conjunto de datos de detección multiorientada de incendios
forestales.
(2) Se propone un Soft-SPP. Este módulo sustituye las tres operaciones paralelas de MaxPool del SPP por
operaciones de SoftPool para preservar información más distintiva.
(3) Se propone un mecanismo de conversión-atención de valores. Para extraer de manera eficiente las
características de textura de humo, este mecanismo de atención utiliza la información de características del color y
la textura de la imagen de humo al tiempo que mejora la distribución de peso de la información de textura.
(4) Se propone un SMN mixto teniendo en cuenta la información del ángulo y la distancia del punto central en la
detección multiorientada de objetivos de humo.
2. Trabajo relacionado
Debido a que los combustibles en el bosque rara vez están secos, con frecuencia se produce un volumen sustancial
de humo durante el inicio de un incendio forestal. La capacidad de detectar el humo de manera efectiva es
fundamental para la prevención y el manejo de los incendios forestales. Los métodos para la detección de humo se
pueden clasificar en (1) métodos tradicionales, que incluyen métodos de detección manuales y de sensores, y (2)
métodos basados en imágenes, que incluyen el aprendizaje automático tradicional y el aprendizaje profundo. Los
métodos tradicionales tienen inconvenientes como un alto costo, un tiempo de respuesta lento y un rango de
aplicación estrecho. Los métodos tradicionales de aprendizaje automático tienen los problemas de extracción
insuficiente de características, una alta tasa de positivos perdidos y una alta tasa de falsos positivos entre los
algoritmos basados en imágenes. Los métodos de aprendizaje profundo no solo abordan los defectos de los
métodos tradicionales y los métodos de aprendizaje automático, sino que también tienen las ventajas de una alta
precisión y una identificación precisa en entornos complicados. Como corolario, el uso de métodos de aprendizaje
profundo para extraer características de humo de nivel profundo y distinguir eficazmente el humo de fondos
complicados es un objetivo importante de las tareas de monitoreo de humo de incendios forestales, que también es
el objetivo principal de este documento.
Los métodos actualmente populares se basan principalmente en la detección manual o la detección de sensores. El
método de detección manual implica que los guardias forestales realicen patrullas terrestres en el bosque e
informen al departamento correspondiente tan pronto como surja un incendio para llevar a cabo medidas de
extinción y extinción de incendios. El método de detección de incendios forestales tiene fallas como errores
excesivos, un área de patrulla pequeña, una carga de alto costo y un área de cobertura insuficiente, y no puede
cumplir con los criterios de velocidad o precisión de la detección de incendios forestales. Las tecnologías de imagen
térmica, como los sensores infrarrojos, los sensores multiespectrales y los sensores hiperespectrales, son ejemplos
de métodos de sensores [13]. Debido al ángulo, la distancia y la oclusión del sensor, el muestreo que se basa en
partículas de humo o humedad se ve fácilmente afectado por objetos irrelevantes en la región circundante, lo que
resulta en desventajas como retrasos de tiempo extremadamente largos, alto costo, alcance limitado y dificultad de
operación [14]. Los sistemas tradicionales de detección de humo son ineficaces en la alerta temprana de incendios
forestales por las razones que se exponen anteriormente.
Para detectar los incendios forestales temprano, los investigadores han llevado a cabo una extensa investigación
sobre el reconocimiento del humo utilizando imágenes de humo y extrayendo el color y las características
texturales del humo [15] Inicialmente, se utilizaron algoritmos típicos de procesamiento digital de imágenes y
métodos de reconocimiento de patrones [16] para extraer y evaluar las propiedades del humo para identificar el
humo. D Krstini et al. investigaron numerosas transformaciones del espacio de color midiendo la separabilidad de
los píxeles de humo y no fumados para encontrar una combinación adecuada de espacio de color y métodos de
segmentación de humo a nivel de píxel para la segmentación a nivel de píxel de humo [17]. Gubbi, J. et al.
propusieron un método para la caracterización del humo basado en wavelets y una máquina de vectores de soporte
que minimiza efectivamente la tasa de falsa alarma de humo [18]. Surapong et al. idearon un método de detección
de humo de incendios forestales que procesa imágenes digitales basadas en un examen de las características
estáticas y dinámicas del humo [19].. Este método localiza la región de interés utilizando el algoritmo de
componentes Unicom, utiliza el algoritmo de casco convexo para calcular el área de la región y dividir el área
cambiada, analiza y calcula las características estáticas y dinámicas, y determina si el objeto cambiado en la imagen
es humo. Chen et al. analizaron las primeras imágenes de video de humo, estimaron las reglas de distribución del
color del humo y construyeron un árbol de decisión para reconocer el humo basado en las variaciones del color del
humo y la difusión dinámica [20]. Yu et al. procesaron imágenes de humo en bloques, evaluaron y calcularon los
cambios en la textura de los videos de humo, los categorizaron y verificaron que las características de textura del
humo variaban significativamente de las de las áreas no fumadoras [21]. Yuan et al. propusieron texturas locales y
globales para las características texturales de las imágenes para mejorar la detección de humo, pero los límites
locales y globales eran difíciles de medir. Establecer un umbral uniforme basado en el nivel de píxeles en este
método de investigación es difícil porque es difícil conciliar el humo cercano con el humo distante y es probable que
se pierdan incendios o falsas alarmas [22].. Utilizando el principio de codificación fractal, Fujiwara y Terada
idearon un método para extraer regiones de humo de las imágenes. Este método no extrae información de la forma
o la forma en sí, sino que utiliza la autosimilitud de la forma de humo y las conexiones de posición de píxeles para
extraer el área de humo de una sola imagen brillante [23]. Aunque este método reduce la dependencia del conjunto
de datos, lleva mucho tiempo analizar las características del humo y es ineficaz para detectar el humo que está lejos
de la lente. Gubbi et al. propusieron un método de detección de humo que se basa en wavelets y máquinas de
vectores de soporte y utiliza una descomposición de wavelet de tres niveles para diferentes niveles de
características. Sesenta características, como la entropía, la curtosis y la asimetría, se calcularon como entradas al
modelo clasificador basado en coeficientes [24].. Finalmente, se utiliza una máquina de vectores de soporte para la
clasificación. Este método se basa en la detección de imágenes de humo de alta calidad que son capturadas por una
cámara fija inferior y no tiene en cuenta el impacto del clima en la calidad de la imagen. Verstockt et al.
propusieron un detector multimodal de llamas y humo para grandes espacios abiertos que obtiene imágenes
visuales y de magnitud basadas en el tiempo de vuelo [25]. Si un objeto tiene una alta probabilidad de ser una
característica de llama, se etiqueta como una región de llama candidata. También se investigó el trastorno de
amplitud, y las regiones con altas diferencias de amplitud acumulativa y altos valores en todas las imágenes
detalladas de la transformada de onda discreta de la imagen de amplitud también se etiquetan como regiones de
llama candidatas. Una alarma de incendio se activa cuando al menos una de las regiones de llama visual y una de
las regiones candidatas a la amplitud se superponen. Esta solución es inmadura debido a su baja resolución y al
alto consumo de energía de la técnica, lo que requiere que el receptor y el transmisor estén cerca de la fuente de
fuego. Esto es difícil de realizar en vastos bosques.
En los últimos años, el desarrollo de técnicas de aprendizaje profundo nos ha permitido detectar incendios
forestales a partir de imágenes, lo que ha aportado nuevas ideas a la alerta temprana de incendios forestales [26].
Los métodos de aprendizaje profundo pueden extraer características de muchas imágenes etiquetadas e identificar
imágenes de humo cambiantes [27]. La detección de objetos generalmente se divide en detección de dos etapas y
detección de una etapa. La detección en dos etapas está representada por RCNN [28], que tiene la ventaja de ser
altamente precisa; sin embargo, la detección de dos etapas tiene altos requisitos de hardware, no es fácil de
implementar ampliamente y tiene una baja tasa de detección. La detección de una etapa está representada por
YOLO [29], que tiene una tasa de detección eficiente y es adecuada para la detección rápida de incendios. YOLO,
que fue propuesto por Redmon et al. es un algoritmo de detección de objetos en tiempo real de extremo a extremo
que utiliza redes neuronales convolucionales para realizar la extracción de características y clasificar objetos e
imágenes localizadas, lo que tiene la ventaja de una alta eficiencia pero carece de precisión. YOLOv2 [30],, que fue
propuesto por Redmon y Frahadi, utiliza la agrupación de K-means para preprocesar el tamaño de la caja anterior
y agrupa la caja anterior en 9 clases con diferentes longitudes y anchuras para detectar objetivos con diferentes
escalas de tamaño, compensando así las deficiencias de YOLO en términos de precisión. Sin embargo, YOLOv2 no
se centra en el problema de entrenamiento de diferentes tamaños de imagen y no funciona bien en la detección de
objetivos pequeños. En un estudio posterior, Redmon y Frahadi propusieron YOLOv3 [31], que se basa en YOLOv2
y cuenta con una red piramidal [32] para mejorar el rendimiento de detección, especialmente en la detección de
objetos pequeños. Sin embargo, el rendimiento de YOLOv3 en objetos con características complejas aún debe
mejorarse, y YOLOv3 aún está lejos de ser aplicable para la detección práctica de incendios forestales. YOLOv4
[33], que fue propuesto por Bochkovskiy et al. optimiza varios aspectos de YOLOv3 en términos de procesamiento
de datos, la red troncal, la capacitación de la red, la función de activación y la función de pérdida, entre otros
factores, y realiza diferentes grados de optimización en aplicaciones prácticas para mejorar el rendimiento del
modelo y proporcionar pautas para aplicaciones prácticas para la detección de incendios forestales. YOLOv5, que
fue propuesto por Glenn Jocher, utiliza el aumento de datos de mosaico en el lado de entrada; CSPDarknet53, la
función de activación Mish y Dropblock en la columna vertebral; y la estructura SPP en el cuello para mejorar el
YOLO. En comparación con YOLOv4, YOLOv5 es un modelo más ligero que realiza una velocidad más alta y aún
así garantiza la precisión. El modelo YOLOv5 propuesto es de peso ligero y alta precisión en aplicaciones prácticas
en comparación con otros modelos YOLO [34].
Los métodos de aprendizaje profundo superan a los métodos tradicionales en la detección del humo de los
incendios forestales y con frecuencia se basan en futuros simples como el color y el contorno del humo. Se requiere
más investigación en el campo de la detección de humo de incendios forestales para investigar diversas
características de humo y mejorar el rendimiento de detección en entornos forestales complicados [35]. A
diferencia del trabajo anterior, nuestro estudio se dedica a recopilar características de humo más profundas para
diferenciar el humo de los fondos complicados (como las nubes y la niebla). Simultáneamente, se emplea una caja
de detección multidireccional para identificar la dirección del humo.
En consecuencia, el método en este documento emplea la columna vertebral estándar de YOLOv5 para extraer
características fundamentales, la agrupación de pirámides espaciales de Softpool para retener más información de
características y el módulo de mecanismo de atención de conversión de valor para caracterizar la información de
textura espacial del humo. La pirámide de características original de YOLOv5 se utiliza para la fusión de
características en el paso de fusión de características. Se propone que Mixed-NMS reemplace el algoritmo NMS
ponderado de YOLOv5 en el paso de posprocesamiento de imágenes para reducir las detecciones faltantes y falsas
de humo. La Fig. 2 ilustra la metodología MVMNet que se presenta en este documento.
Descargar : Descargar imagen de alta resolución (244KB) Descargar : Descargar imagen a tamaño completo
3. Método
Las tres imágenes de la Fig. 4 son todos datos simulados que se obtuvieron en el campo en un claro en las afueras
de una ciudad. Como se muestra en las imágenes, el claro contenía plantas y árboles, y los alrededores estaban
relativamente abiertos para simular un fondo de bosque. El humo se producía quemando ramas y hojas secas. La
Fig. 4 (a) fue capturada por la mañana, la Fig. 4 (b) en el medio del día y la Fig. 4 (c) por la noche para simular el
humo que se produce por un incendio forestal en diferentes condiciones climáticas y en diferentes momentos del
día.
Descargar : Descargar imagen de alta resolución (2MB) Descargar : Descargar imagen a tamaño completo
Figura 3. Ejemplos de datos experimentales donde las imágenes muestran (a) humo de largo alcance, (b) humo de
medio alcance, (c) humo de corto alcance y (d) no humo.
Las imágenes que se recopilaron en el lugar son inconsistentes con las imágenes iniciales que se recopilaron en un
entorno simulado, y su calidad no es consistente. Para facilitar la investigación, los estándares de imagen de alta
definición se unifican a través de la detección, el recorte y la estandarización para representar el verdadero entorno
forestal. Para etiquetar los datos multiorientados, utilizamos el software LabelImg2, y las etiquetas incluyen
coordenadas de posición, longitud, altura e información de ángulo. LabelImg2 etiqueta el conjunto de datos solo en
formato VOC. Una vez completado el etiquetado, se obtiene el conjunto de datos en formato VOC; por lo tanto, el
conjunto de datos también debe convertirse al formato YOLO. La Fig. 5 muestra los pasos para convertir el
conjunto de datos.
Descargar : Descargar imagen de alta resolución (297KB) Descargar : Descargar imagen a tamaño completo
Fig. 4. Simulated forest fire scenes that were captured in the field.
Actual forest fire monitoring tasks require high-performance real-time monitoring methods. Furthermore, smoke
has strong transparency properties, which distinguishes it from ordinary objects, and most neural networks do not
take transparency into account. Through the slicing operation, the Focus module of YOLOv5 converts the RGB
three-channel mode to the twelve-channel mode, which not only boosts the speed but also helps extract the high-
transparency features of the smoke. To take into account the real-time and high-transparency properties of smoke,
this paper uses YOLOv5 as the basic network. YOLOv5 offers advantages in forest fire smoke detection tasks;
however, the properties of smoke and typical objects are significantly different. By designing according to the
features of smoke, it is possible to considerably enhance the model’s detection rate. As a result, we propose the
MVMNet target detection method, which improves upon YOLOv5.
3.3. Multioriented detection based on the value conversion-attention mechanism module and mixed-
NMS (MVMNet)
MVMNet is upgraded on the basis of YOLOv5, and the network structure changes are illustrated in Fig. 6.
YOLOv5’s feature extraction network is composed of the Focus, CBL, SPP, and CSP1_X modules. This paper builds
on YOLOv5 by replacing the SPP module with the Soft-SPP module and adding the VAM module. This paper
improves the IoU calculation method, the loss function calculation method, and the NMS strategy, in addition to
the network structure. Additional details are provided in the following chapters.
Descargar : Descargar imagen de alta resolución (432KB) Descargar : Descargar imagen a tamaño completo
Durante el proceso de entrenamiento, cada caja de anclaje se describe mediante una representación de cinco
parámetros. Para acomodar las propiedades del humo en la detección de multiorientación, se utiliza un enfoque de
regresión para determinar la ubicación de cada caja de anclaje de multiorientación. La regresión se calcula de la
siguiente manera [36]:
(1)
(2)
(3)
(4)
Las variables representan la posición horizontal, posición vertical, anchura, altura y ángulo del cuadro de
detección, respectivamente, respectivamente, y las variables representan la caja de verdad del suelo, la caja de
anclaje y la caja predicha, respectivamente (del mismo modo para ).
Se emplea una función de pérdida durante la fase de entrenamiento del modelo. Para la retropropagación,
combinamos la función de pérdida de regresión, la función de pérdida VAM y la función de pérdida de ángulo. La
función de pérdida total que establecemos se presenta como fórmula (5)::
(5)
Aquí, , y son los hiperparámetros; es el número de cuadros candidatos; y es un valor binario que indica si un punto
de píxel está cubierto por un fotograma candidato (la cobertura se indica por 1 y la no cobertura por 0). determina
la dirección de la propagación del gradiente, e IoU es la relación de intersección del cuadro de predicción y la
verdad del suelo. es la altura del marco candidato, es el ancho del marco candidato, y es la función de pérdida del
VAM.
La dirección del aleteo del humo en su condición natural está relacionada con la convección térmica del aire, que
tiene las características de aleteo ascendente y desplazamiento irregular. La Fig. 7 muestra el humo con múltiples
orientaciones.
We aim to determine the direction of the smoke as accurately as possible to facilitate the determination of the fire
location, which will help prevent as much damage as possible from the forest fire. In addition, we choose a suitable
anchor box representation to reduce the amount of redundant information that is provided to the network during
training, thereby reducing the number of learning options that are available to the network, facilitating the
constraint of the network’s training direction, and reducing the convergence time of the network. We use a five-
parameter long-edge representation ( ) to represent the multioriented anchor box , where denotes the
angle through which the longest edge is encountered under clockwise rotation in the axial direction and .
The traditional IoU calculation method for multioriented anchor boxes uses axis-aligned bounding boxes to
calculate the IoU; however, the IoU calculation on axis-aligned bounding boxes may lead to an inaccurate IoU for
multioriented detection and further corrupt the final prediction.
(6)
A continuación, determinamos el área de unión empleando el teorema de repulsión de tolerancia, que produce la
Fórmula (7).
(7)
Finalmente, el método de cálculo PolyIoU calcula directamente la relación de intersección entre dos cajas de
anclaje, donde el área de intersección de las dos cajas inclinadas es el numerador y el área combinada es el
denominador, como se expresa en la Fórmula (8)..
(8)
Cuando la verdad del suelo es horizontal, se obtiene una predicción inexacta. Por esta razón, movemos cada punto
hacia adelante o hacia atrás en un bit, calculamos las pérdidas de los tres métodos al avanzar y retroceder, y
seleccionamos el más pequeño de estos valores como resultado. Este cálculo, que se expresa mediante la función de
pérdida de posición, se presenta en la Fórmula (9)..
(9)
Descargar : Descargar imagen de alta resolución (103KB) Descargar : Descargar imagen a tamaño completo
Figura 8. Cálculo de PolyIoU: La parte blanca es la intersección de dos cajas rectangulares, que se divide en varios
triángulos con una línea punteada azul. Luego, las áreas de los triángulos se calculan por separado y se suman para
obtener el área total de la intersección.
, , , forman un área de tamaño 2 * 2 en la figura original. Primero, usamos la Fórmula (10) para convertir , , y en
area1 en cuatro áreas en Area2. Luego, las cuatro áreas en Área1 y Área2 se multiplican por separado y se suman a
los resultados que se obtienen multiplicándolas para obtener el resultado final.
(10)
En ImageNet, para una gama de arquitecturas CNN populares, reemplazar la operación de agrupación original con
SoftPool resultó en mejoras del 1% al 2% en consistencia y precisión, lo que demuestra que se pueden obtener
resultados significativos al reemplazar otras operaciones de agrupación con SoftPool [37]. Además, SoftPool tiene
menos parámetros y logra una mejor convergencia en las primeras rondas de entrenamiento que el downsampling
usando convolución. La operación SoftPool se expresa de la siguiente manera:
(11)
En cada cuadrícula del mapa de entidades, respondemos a cada convolución usando SoftPool. El número de
cuadrículas se establece en M, el número de filtros para la capa de convolución anterior es k y la salida de la
agrupación de pirámides espaciales es un vector k*M-dimensional. El vector de dimensión fija es la entrada a la
capa totalmente conectada. El módulo Soft-SPP se ilustra en la Fig. 10.
Descargar : Descargar imagen de alta resolución (326KB) Descargar : Descargar imagen a tamaño completo
Descargar : Descargar imagen de alta resolución (177KB) Descargar : Descargar imagen a tamaño completo
Descargar : Descargar imagen de alta resolución (201KB) Descargar : Descargar imagen a tamaño completo
Asignamos coeficientes de peso horizontal a cada fila de entidades mediante el uso del mecanismo de atención
horizontal y asignamos coeficientes de peso vertical a cada columna de entidades mediante el uso del mecanismo
de atención vertical.
(12)
Sumamos los dos tipos de características de ponderación para ampliar aún más los factores de ponderación.
(13)
Para utilizar el valor máximo como factor principal y tener en cuenta las otras características, la estrategia se
combina con dos tipos de características de ponderación, que se utilizan para complementar los resultados de la
estrategia de suma de ponderación en el segundo paso.
(14)
En los experimentos de la Sección 4.2.2, confirmamos que los valores óptimos de los parámetros de asignación de
peso son y .
Las tres estrategias de este método se combinan en la siguiente fórmula, y el procedimiento de concatenación se
ilustra en la Fig. 12.
(15)
En la fórmula anterior, representa los coeficientes de peso del mecanismo de atención, representa las entidades
temporales, representa las características de secuencia, representa la información de capa oculta de la secuencia de
entidades, representa la secuencia de características del mecanismo de atención vertical , y representa la secuencia
de características del mecanismo de atención horizontal. representa el factor de ponderación aditivo. representa la
operación de valor máximo. representa la operación de valor mínimo. representa la estrategia de asignación de
peso. El procedimiento de asignación de peso VAM se ilustra en la Fig. 13.
Descargar : Descargar imagen de alta resolución (58KB) Descargar : Descargar imagen a tamaño completo
Descargar : Descargar imagen de alta resolución (118KB) Descargar : Descargar imagen a tamaño completo
Además, el método para la detección de objetos de humo utilizando un enfoque de caja de anclaje multiorientado
que se describe anteriormente tiene un parámetro de ángulo adicional, pero este ángulo debe considerarse en la
fase NMS. En la detección de objetos multiorientados, la IoU se ve afectada sustancialmente cuando cambia el
ángulo de los dos objetos. El NMS ponderado de YOLOv5 no es adecuado para la detección de multiorientación en
escenarios de humo de incendios forestales. Como se ilustra en la Fig. 14, el IoU para dos cajas preseleccionadas es
significativamente más pequeña cuando las cajas están orientadas en ángulos más grandes que en ángulos más
pequeños.
El cálculo inexacto de la IoU puede conducir a detecciones de humo perdidas o falsas. Cuando se producen
detecciones perdidas, las personas no son informadas de los incendios a tiempo, lo que conduce a incendios
incontrolables. Cuando se producen detecciones falsas, se cobra un alto precio al sistema de extinción de incendios.
Para obtener excelentes resultados de detección de incendios forestales y reducir la ocurrencia de detecciones
perdidas y falsas, este trabajo propone Mixed-NMS combinando los métodos Skew-NMS [36] y DIoU-NMS [39].
Descargar : Descargar imagen de alta resolución (94KB) Descargar : Descargar imagen a tamaño completo
Skew-NMS considera la información de ángulo basada en NMS. Si hay marcos candidatos con IoUs superiores a
0,7, se conserva el marco candidato más grande; si todos los fotogramas candidatos se encuentran en , se conserva
el marco candidato más pequeño con un ángulo inferior °.
El DIoU se calcula en base al IoU tradicional, de modo que si el centroide de una caja adyacente está más cerca del
centroide de la caja M de puntuación máxima actual, es más probable que sea una caja redundante. La fórmula de
cálculo es la siguiente:
(16)
donde es la distancia entre los centros de los dos recuadros a priori y es la distancia entre los vértices más lejanos
de los dos recuadros a priori, como se ilustra en la Fig. 15.
Mixed-NMS combina el DIoU con el método Skew-NMS y utiliza dos umbrales diferentes para la división de
intervalos, con el ángulo como parámetro que debe considerarse. Mixed-NMS ordena los cuadros preseleccionados
en orden descendente según el nivel de confianza, establece dos umbrales y utiliza diferentes operaciones de
penalización para diferentes intervalos de DIoU. Si el DIoU es inferior a 0,3, no se aplica ninguna operación de
penalización; si el DIoU está en , entonces la casilla preseleccionada con el nivel de confianza más alto se conserva
si el ángulo es menor que ; y si el DIoU es mayor que 0,7, entonces el cuadro preseleccionado con el nivel de
confianza más bajo se filtra directamente.
Descargar : Descargar imagen de alta resolución (142KB) Descargar : Descargar imagen a tamaño completo
4. Resultados y análisis
Esta sección está separada en subsecciones para (1) describir el entorno experimental y la configuración, incluido el
entorno de hardware y software, y la configuración de hiperparámetros; (2) evaluar la efectividad e identificar los
parámetros críticos de cada módulo MVMNet; (3) demostrar la eficacia del nuevo método propuesto en este
artículo a través de experimentos de ablación en MVMNet; (4) comparar MVMNet con otros métodos y demostrar
que MVMNet supera a otros métodos en tareas de monitoreo de humo de incendios forestales; y (5) describir
pruebas en escenarios de aplicación del mundo real. Según los resultados de la prueba, MVMnet supera los desafíos
del humo inclinado, la detección errónea de objetos que son similares al humo y el humo que está demasiado lejos
de la cámara.
Creamos y publicamos un conjunto de datos utilizables sobre humo de incendios forestales. Para evitar el desajuste
de la relación de aspecto y garantizar un efecto de aprendizaje satisfactorio, cortamos todas las imágenes del
conjunto de datos en imágenes con una altura igual a la anchura. Durante el entrenamiento, el modelo cambia el
tamaño de las imágenes de entrada a 512 * 512. La distribución gaussiana se utiliza para inicializar cada capa del
modelo. A continuación, establecemos el tamaño del lote en 1, el impulso en 0.8, la tasa de aprendizaje inicial en
0.005, la descomposición en 0.0005 y la duración de cada entrenamiento en 150 épocas, teniendo en cuenta el
tamaño de la memoria de la GPU y el consumo de tiempo del experimento. La Tabla 2 contiene la configuración y
los hiperparámetros. En el experimento, utilizamos una proporción de 7: 2: 1 para dividir las imágenes 15909 del
conjunto de datos de detección multiorientada de incendios forestales en un conjunto de entrenamiento, un
conjunto de validación y un conjunto de prueba.
Entorno de hardware
CPU AMD Ryzen 7 5800H con gráficos Radeon
Carnero 16 GB
Memoria de vídeo 16 GB
Entorno de software
Sistema operativo Windows 10
CUDNN V8.0.4;
Python 3.8.8;
Tamaño de las imágenes de entrada Batch_size Momento Tasa de aprendizaje inicial Decaer Iteraciones
Los resultados experimentales demuestran que, en comparación con el SPP original de YOLOv5, el empleo de
agrupación promedio y mediana en lugar de la agrupación máxima da como resultado una pérdida menor de
precisión. Se puede demostrar que simplemente reemplazar la capa de agrupación máxima no mejora la precisión.
Por el contrario, el método de combinación de agrupación promedio + máximo puede aumentar el mAP50 en un
0,25%, lo que no mejora considerablemente la precisión de la detección de humo. El uso de SoftPool en lugar de
Soft-SPP de MaxPool puede aumentar considerablemente la precisión de detección del modelo, lo que mejora la
precisión del monitoreo de incendios forestales.
(17)
Se lleva a cabo un experimento de comparación. El intervalo entre valores se establece , y los valores de siempre
están relacionados con los valores de .
Para identificar los valores óptimos de y , modificamos los coeficientes de asignación de peso de VAM en MVMNet
para su prueba. Los resultados experimentales se muestran en la Fig. 16.
Los valores óptimos son y . Cuando el valor de es demasiado grande, se descuida el peso del valor mínimo, lo que
resulta en que las características de la imagen en lugares con valores más pequeños se ignoren y la extracción de las
características de la imagen pierda su naturaleza global. Cuando el valor de es demasiado pequeño, la
consideración excesiva de las características globales hace que el mecanismo de atención no pueda centrarse lo
suficiente en la información importante, lo que afecta el rendimiento de la VAM.
Descargar : Descargar imagen de alta resolución (237KB) Descargar : Descargar imagen a tamaño completo
Introducimos los módulos SE Attention y CBAM Attention en el extremo de la columna vertebral de YOLOv5 para
pruebas comparativas para investigar la eficiencia de VAM. La Tabla 4 muestra los resultados de la prueba.
El método de cálculo de IoU alineado con el eje tiene defectos evidentes, y la detección del objetivo de la caja de
anclaje multiorientada difiere de la de la caja horizontal. Si el método original todavía se utiliza cuando se utiliza
una caja de anclaje multiorientada, el mAP disminuirá sustancialmente. Como resultado, el enfoque de cálculo
original debe abandonarse en favor del método PolyIoU, que aumenta la precisión en un 1,23% mientras emplea la
caja de anclaje multiorientada.
Descargar : Descargar imagen de alta resolución (85KB) Descargar : Descargar imagen a tamaño completo
Los resultados experimentales muestran que Skew-NMS mejora la mAP50 en un 1,63% y DIoU-NMS mejora la
mAP50 en un 1,21% en comparación con el método codicioso-NMS. La mezcla de los dos métodos de supresión no
máxima y el establecimiento de un umbral razonable constituyen el enfoque más beneficioso para mantener la
precisión del modelo, lo que mejora la mAP50 un 2,77% en comparación con el codicioso NMS. Aunque la adición
de estos dos métodos NMS reduciría teóricamente la velocidad de predicción, en la práctica, la fase de predicción
solo representa una pequeña fracción del consumo de tiempo y tiene poco impacto en la velocidad de predicción
del modelo en la implementación real. Por lo tanto, este documento utiliza una combinación de estos dos métodos
de supresión no máxima para la detección de humo.
Descargar : Descargar imagen de alta resolución (94KB) Descargar : Descargar imagen a tamaño completo
Figura 18. mapa50 resultados de cuatro métodos NMS.
Basándonos en MVMNet, aplicamos el enfoque de variables de control para borrar VAM, Soft-SPP y Mixed-NMS
uno a la vez y reemplazarlos con SPP y NMS (los dos módulos están incluidos en el método YOLOv5). Finalmente,
YOLOv5 se compara con la detección multiorientada-YOLOv5.
• Los experimentos comparativos entre los grupos octavo y noveno revelan que el uso de una caja de detección en
ángulo puede mejorar modestamente la mAP, lo que es más notable en el conjunto de datos de humo fácil de
detectar que en el conjunto de datos de humo difícil de detectar. Simultáneamente, el FPS se reduce en 2 debido
a la inserción del parámetro de ángulo.
• La comparación de los grupos séptimo y octavo revela que el método Mixed-NMS puede elevar el índice de
detección de humo mAP mientras disminuye el FPS en 5.
• La comparación entre el sexto y octavo grupos demuestra que Soft-SPP puede mejorar con éxito mAP al tiempo
que reduce la velocidad y el número de parámetros.
• La comparación entre el quinto y el octavo grupos demuestra que VAM puede aumentar significativamente la
mAP, pero también es la causa principal de un mayor número de parámetros de MVMNet y una disminución de
FPS. El módulo VAM puede garantizar que toda la información de la función de humo se extraiga por completo.
Los resultados de nueve grupos de experimentos demuestran a fondo las contribuciones de VAM, Soft-SPP y
Mixed-NMS a la mejora de mAP. MVMNet es más adecuado para la detección de objetivos de humo de incendios
forestales que YOLOv5.
Examinamos los resultados de detección de MVMNet con VAM eliminado, SPP reemplazando Soft-SPP y NMS
reemplazando Mixed-NMS para analizar el rendimiento del método que se propone en este artículo. El cuadro de
detección, la categoría y la confianza se muestran en el gráfico de resultados de detección, como se ilustra en la
Tabla 6.
Número Método mapa50 (%) mapa75 (%) AR (%) Fps Param Flop
8 SPP+NMS (detección multiorientada-YOLOv5) 78.35 69.37 41.76 154 22,1 millones 51B
Como se muestra en la Tabla 6, la concentración de humo en la Fig. a y la Fig. b es pequeña, y YOLOv5 es incapaz
de detectar este humo, mientras que MVMNet es capaz de detectarlo con éxito. Si se utiliza SPP para reemplazar
Soft-SPP en MVMNet, la precisión de los resultados se reduce. Si se elimina vaM, las características de humo son
difíciles de extraer. Si se utiliza NMS convencional en lugar de Mixed-NMS, se pierde la nube de humo más
pequeña en la Fig. b, lo que demuestra que Mixed-NMS puede reducir las detecciones perdidas. En la Fig. d, el
humo está inclinado, la detección YOLOv5 utilizando la caja horizontal no coincide tan bien como la de MVMNet, y
en ambos casos, la detección pierde su coincidencia cuando Soft-SPP en MVMNet se reemplaza por SPP y VAM se
elimina. La ausencia de SMN Mixto no tiene ningún efecto. El color y la morfología de las nubes en el cielo en la
Fig. e son muy similares a los del humo, y el modelo YOLOv5 detecta erróneamente estas nubes como humo,
mientras que MVMNet no causa una detección errónea. Esta detección errónea también ocurre cuando se elimina
VAM. Por lo tanto, se demuestra el importante papel de VAM en la sesión de extracción de características.
R-CNN más rápido por G-RMI Inception-ResNet-v2 66.52 76.26 68.99 39.76 –
R-CNN más rápido con FPN ResNet-101 68.24 81.13 70.75 40.73 –
R-CNN más rápido con TDM Inception-ResNet-v2 68.80 78.87 71.06 42.27 –
Tabla 8. MVMNet y los métodos populares actuales se clasificaron en orden descendente de AP, AR y FPS. La
diferencia de rendimiento de los métodos populares en relación con MVMnet se especifica entre paréntesis.
Rango Ap Ar Fps
4.4.1. Comparación del método MVMNet con otras redes de detección de destino
Para analizar más a fondo el rendimiento de MVMNet, lo comparamos con RCNN, SPPNet, Fast RCNN, Faster
RCNN, OverFeat, YOLO, YOLOv2, YOLOv3, YOLOv4, YOLOv5 y SSD en la detección de objetos de humo. RCNN
extrae valores independientes de la categoría de las regiones candidatas de la imagen de humo de entrada, y para
cada región, se extrae un vector de característica de longitud fija utilizando CNN, y la extracción se transforma
uniformemente a un tamaño fijo de 227 * 227, independientemente del tamaño y la forma de las regiones
candidatas. Para eliminar la restricción del tamaño fijo de la imagen, SPPNet [65] introduce una capa de
agrupación de pirámides espaciales. Después de la última capa convolucional, se inserta la capa SPP. Para evitar la
distorsión de la imagen de humo causada por la "planitud" o la "hipertrofia" inducida por el recorte o la
deformación al principio, la capa SPP agrupa el mapa de entidades y genera una salida de longitud fija. El RCNN
rápido [66] hace girar directamente toda la imagen de humo, lo que reduce sustancialmente el número de cálculos
repetitivos. RCNN más rápido [67] combina múltiples pasos de extracción de características, extracción de
propuestas y regresión de cajas delimitadoras en una red, mejorando así el rendimiento de la detección de humo.
OverFeat [68] utiliza el entrenamiento multiescala y se aleja de la supresión no máxima tradicional a un enfoque de
predicción acumulativa. YOLO utiliza todo el mapa como entrada a la red y hace retroceder la ubicación y la clase
de la caja de detección en la capa de salida, con diversos grados de mejora en cada una de sus cinco versiones. SSD
[69] utiliza una red CNN para la detección como lo hace YOLO, pero con dos mapas de características multiescala,
lo que permite extraer características de humo más granulares. Todos los métodos anteriores utilizan un modelo de
red neuronal convolucional profunda, a saber, MVMNet, y sus resultados experimentales comparativos en el
conjunto de datos de detección multiorientada de incendios forestales se presentan en la Tabla 7.
Los resultados muestran que los detectores de una etapa son más rápidos que los detectores de objetivos de dos
etapas. En comparación con el detector de objetivo tradicional de una sola etapa de caja horizontal, YOLOv2 y SSD
son sustancialmente más rápidos, pero sus precisiones son insuficientes. El posterior modelo de detección de
objetivos de una sola etapa muestra mejoras en términos de precisión y velocidad. YOLOv4 tiene un mAP50 del
86,62% y YOLOv5 tiene un FPS de 156. Además, en la tabla se comparan tres métodos actualizados de detección de
humo de incendio. Dado que algunos de los algoritmos de monitoreo de humo más efectivos emplean la
clasificación de imágenes, comparamos la detección de objetivos utilizando la cabeza de MVMNet en lugar de la
capa completamente conectada en el estudio original. Nuestro modelo mejora el AP50 en un 10,93% en
comparación con YOLOv5 con poca reducción de velocidad y en un 1,53% en comparación con YOLOv4 con una
mejora en la velocidad de detección en más de tres veces. MVMNet supera a la mayoría de los detectores en
términos de precisión en comparación con el detector de objetivo de dos etapas de caja horizontal estándar.
MVMNet funciona algo mejor en general que D-RFCN + SNIP, aunque funciona significativamente peor en la
detección de objetivos pequeños. Sin embargo, en términos de velocidad, el detector de dos etapas se queda corto.
Incluso en la detección de humo para objetivos pequeños, no es tan eficaz como MVMNet. En términos de
precisión, MVMNet supera a todos los detectores de dos etapas en la tabla en comparación con los nuevos
algoritmos de detección multiorientación que se desarrollaron en los últimos años. El detector de una sola etapa
MVMNet tiene un claro beneficio de velocidad. MVMNet supera a los nuevos algoritmos de detección de una sola
etapa, como RDD y GWD, en términos de velocidad y precisión. Específicamente, el MVMNet propuesto se basa en
los módulos VAM y Soft-SPP para extraer mejor las características complejas y variables del humo y se ajusta a la
morfología del humo con una caja de detección multiorientada. En resumen, se logra una precisión del 88,05% en
los experimentos manteniendo un FPS de 122. Aunque ligeramente inferior en términos de velocidad en
comparación con YOLOv5, todavía cumple con los criterios para la detección de humo de incendios forestales en
tiempo real. En comparación con los otros modelos de la tabla, MVMNet es el modelo más adecuado para la
detección de humo de incendios forestales. Identificamos las siguientes posibles razones por las que nuestro
modelo MVMNet propuesto supera a los otros modelos de redes neuronales profundas:
(1) Debido a que nuestro conjunto de datos de humo de incendios forestales contiene solo 15,909 imágenes, lo cual
es modesto en comparación con los conjuntos de datos públicos abiertos a gran escala como COCO y VOC, pone a
prueba las capacidades de extracción de características del modelo. Además, los conjuntos de datos públicos
abiertos a gran escala son multiclase y están dominados por objetos que suelen ser comunes en la vida cotidiana,
como personas y automóviles, mientras que el humo es un objeto que generalmente es raro y difícil de detectar. Si
bien estos modelos tradicionales de redes neuronales profundas están diseñados para conjuntos de datos públicos
comunes a gran escala, MVMNet es una estructura bien diseñada para la investigación de detección de humo de
incendios forestales.
(2) VAM se centra en la extracción de características de la textura del humo. El efecto de la extracción de
características se mejora teniendo en cuenta las dimensiones horizontales y verticales, y hace una contribución
significativa a la mejora de la mAP.
(3) MVMNet employs a multioriented detection and PolyIoU calculation method that is more in line with the
features of smoke’s indeterminate direction, which can improve the IoU during detection and, as a result, the mAP.
(4) A hybrid nonmaximum suppression method is used to effectively reduce false detections and missed detections
that are caused by inappropriate threshold settings of traditional nonmaximum suppression methods, and the
combination of two nonmaximum suppression methods further improves the positioning accuracy of smoke
detection.
To more concisely reflect the advantages of MVMNet over popular solutions, we rank the top 10 classes of methods
in descending order of AP, AR, and FPS.
According to Table 8, the proposed MVMNet is able to maintain TOP-1 AP and AR in the forest fire multioriented
detection dataset. At the same time, it achieves 122 in the metric of FPS, second only to YOLOv5. Currently,
popular high-precision models usually have extremely high numbers of layers and parameters; thus, the perform
poorly in terms of FPS. Compared to popular methods, MVMNet shows a speed-accuracy trade-off.
In Table 9, we calculated Q statistics to indicate the difference between the top 10 AP methods and the MVMNet
classification abilities. In general, the smaller the degree of difference, the closer the Q statistics is to 1 [70].
Table 9 demonstrates that the Q statistics of DeepSmoke and GWD are relatively close to one, indicating that they
differ from MVMNet to a smaller amount. However, these two methods have just 33 FPS and 29 FPS, respectively,
whereas the remainder of the methods differs significantly from MVMNet. Popular high precision models typically
have extremely high layer and parametric counts. As a result, it performs poorly in terms of FPS. MVMNet has a
speed-accuracy trade-off when compared to popular methods.
The table shows that the clouds near the smoke in Figure a are misidentified as smoke by the FireNet, DCNN, and
DeepSmoke models but MVMNet identifies the smoke more accurately and does not misidentify the cloud. FireNet
and DCNN miss the thin and transparent smoke in Figure b. DeepSmoke detects fuzzy grass as smoke, which could
be due to a lack of extraction of smoke texture features. MVMNet performs fantastically. Because the background
colour is highly similar to the smoke in Figure c, FireNet, DCNN, and DeepSmoke fail, but MVMNet detects the
smoke appropriately. VAM is extremely likely to have played a role in the extraction of smoke features.
Table 10. Visual comparison with other fire smoke monitoring methods under complex backgrounds.
Experimental
Detection result
method
FireNet [41]
DCNN [42]
DeepSmoke [43]
Experimental
Detection result
method
MVMNet
un b c
Cuando se detecta humo, nuestras cámaras pueden capturarlo y hacer sonar una alarma. La Fig. 20 muestra una
comparación de YOLOv5 y MVMNet en las tres categorías de humo reconocidas. Para probar en cada categoría,
seleccionamos 20 escenas de la vida real. Como se muestra en la figura, las precisiones de reconocimiento de
YOLOv5 y MVMNet son 100% en la categoría A, 85% y 65% en la categoría B, y 60% y 20% en la categoría C,
respectivamente.
Descargar : Descargar imagen de alta resolución (409KB) Descargar : Descargar imagen a tamaño completo
Figura 19. Diagrama esquemático del sistema de detección de humo de incendios forestales de IoT que se basa en
MVMNet.
MVMnet se desempeña admirablemente en la prueba de aplicación real y maneja con éxito los tres escenarios que
se representan en la Fig. 1. El objetivo de humo en la Fig. 21.a es modesto y en un ángulo de 45 grados con respecto
al suelo. La Fig. 21.b muestra una situación en la que el área de humo es grande pero la concentración de humo es
baja y el color es claro. La Fig. 21.c representa un caso en el que el objetivo de humo es pequeño. MVMNet es capaz
de detectar el humo en todos los escenarios anteriores. Los resultados de la aplicación en estos escenarios del
mundo real demuestran el rendimiento superior de MVMNet en la tarea de detección de humo.
Descargar : Descargar imagen de alta resolución (68KB) Descargar : Descargar imagen a tamaño completo
Figura 20. Resultados de reconocimiento de MVMNet y YOLOv5 para tres tipos de humo. La Clase A se refiere a los
casos con una densidad y tamaño de humo medio, la Clase B se refiere a los casos con una densidad de humo baja y
características deficientes, y la Clase C se refiere a los casos en los que el objetivo de humo es pequeño y difícil de
encontrar.
Descargar : Descargar imagen de alta resolución (412KB) Descargar : Descargar imagen a tamaño completo
5. Discusión
Se produce un conjunto de datos de detección multiorientada de incendios forestales para la detección
multiorientada del humo del fuego, que cubre una amplia gama de características de humo que ocurren durante un
incendio. La eficacia del modelo MVMNet propuesto para la detección de humo de incendios forestales se verifica a
través de la comparación y el análisis de varios conjuntos de experimentos. En particular, el modelo resuelve bien
tres problemas principales, a saber, la confusión del humo con las nubes y otros objetos similares al humo, la
inclinación del humo y la larga distancia entre el punto de combustión y la cámara.
Muchos conjuntos de datos de video de humo ya están en uso público. Sin embargo, estudios previos en el campo
de la detección de humo de incendios forestales aún no han puesto a disposición del público conjuntos de datos de
imágenes. Como resultado, el conjunto de datos de detección multiorientada de incendios forestales que ofrecemos
puede ayudar a respaldar el uso de métodos de aprendizaje profundo basados en imágenes en la preservación del
medio ambiente ecológico.
El análisis de las muestras detectadas incorrectamente proporciona información útil para mejorar el rendimiento
de nuestra red propuesta. El modelo MVMNet está diseñado como un vector de perspectiva donde se divide en 180
clases, a saber, . Dado que el modelo está diseñado como una tarea de clasificación, podemos evitar el problema de
límite que se plantea en la tarea de regresión. Sin embargo, en nuestro conjunto de datos, el número de ángulos que
corresponden a clases distintas varía ampliamente, lo que da lugar a un problema de desequilibrio entre clases.
Como se muestra en la Fig. 22, el problema del desequilibrio interclase puede conducir al dominio de las categorías
más numerosas en la retropropagación, con el detector tendiendo a predecir las categorías más numerosas. Como
resultado, los ángulos predichos diferirán de los ángulos verdaderos.
Para abordar tales dificultades, consideraremos mitigar este problema en trabajos futuros mediante la
determinación de la información angular utilizando una etiqueta circular lisa. Al mismo tiempo, el número de
imágenes en el conjunto de datos debe aumentarse tanto como sea posible para garantizar que se mejore aún más y
se equilibre más.
Descargar : Descargar imagen de alta resolución (409KB) Descargar : Descargar imagen a tamaño completo
6. Conclusiones y perspectivas
Los algoritmos de detección de humo basados en el aprendizaje profundo se han vuelto cada vez más populares en
la detección de incendios forestales en los últimos años. Propusimos un MVMNet para la detección de humo de
incendios forestales para mejorar la precisión y la eficacia de la detección de objetivos de humo de incendios
forestales. Primero, propusimos la detección multiorientada para ajustarse a la dirección del humo, seguida de
VAM para mejorar la capacidad de extraer las características del humo. Para preservar más información,
reemplazamos MaxPool en SPP con SoftPool. Finalmente, en la etapa de postprocesamiento de YOLOv5
reemplazamos el NMS original por Mixed-NMS, resolviendo así los problemas de detección errónea y detección
perdida que ocurren comúnmente en la detección de humo de incendios forestales y mejorando la precisión de la
detección del objetivo. Más importante aún, MVMNet mejora la precisión y la efectividad del modelo YOLO en la
detección de humo de incendios forestales, y es fácil de entrenar y utilizar. Esto abre nuevas vías para utilizar el
aprendizaje profundo en la prevención y gestión de incendios forestales. En nuestro experimento, utilizamos una
proporción de 7: 2: 1 para dividir los datos de imagen 15909 del conjunto de datos de detección multiorientada de
incendios forestales en un conjunto de entrenamiento, un conjunto de validación y un conjunto de prueba.
MVMNet alcanzó un mAP50 de 88,05% y un FPS de 122, superando así los métodos comparados y demostrando la
efectividad del modelo que desarrollamos.
Los resultados experimentales mostraron que el método de detección de objetos MVMNet propuesto podría
identificar eficazmente el humo en el conjunto de datos de humo, pero en la práctica, todavía hay lagunas en su
aplicación a la prevención y el control de incendios forestales.
En el futuro, se recopilarán tantas imágenes en entornos complejos como sea posible para descubrir más
correlaciones entre las características morfológicas y detalladas del humo y su entorno y para combinar la
información semántica en el entorno con la información de la característica del humo para mejorar la precisión del
reconocimiento del humo de los incendios forestales. Además, sería útil desplegar drones para obtener imágenes
forestales y crear modelos de drones. Los métodos que se propusieron en este documento se pueden aplicar a la
prevención y el control de incendios forestales para promover la detección rápida y efectiva de incendios forestales
y una respuesta organizada a los incendios.
Financiación
Este trabajo fue apoyado por la Fundación Nacional de Ciencias Naturales en China (Subvención No. 61703441); en
parte por el Proyecto Clave del Departamento de Educación de la Provincia de Hunan (Subvención No. 21A0179);
en parte por la Fundación Municipal de Ciencias Naturales de Changsha (Subvención No. kq2014160); en parte por
Hunan Key Laboratory of Intelligent Logistics Technology (2019TP1015).
Agradecimientos
Agradecemos a todos los miembros del Centro de Investigación de Información Forestal por su asesoramiento y
asistencia en el curso de esta investigación. El idioma de nuestro manuscrito ha sido refinado y pulido por Elsevier
Language Editing Services (número de serie: LE-229528-CD224E4C9C79)
Recommended articles
Referencias
[1] Lucas-Borja M.E., González-Romero J., Plaza-Álvarez P.A., Sagra J., Gómez M.E., Moya D., Heras J., et al.
El impacto del acolchado de paja y la tala de salvamento en la escorrentía posterior al
incendio y la generación de erosión del suelo en condiciones climáticas mediterráneas
Sci. Total Environ., 654 (2019), pp. 441-451, 10.1016/j.scitotenv.2018.11.161
View PDF Ver registro en Scopus Google Académico
[2] Lucas-Borja M.E., Hedo J., Cerdá A., Candel-Pérez D., Viñegla B.
Desentrañar la importancia del rodal de edad forestal y la estructura forestal que impulsa las
propiedades microbiológicas del suelo, las actividades enzimáticas y el contenido de
nutrientes del suelo en el bosque mediterráneo de pino negro español (pinus nigra ar. ssp.
salzmannii)
Sci. Total Environ., 562 (2016), págs. 145-154, 10.1016/j.scitotenv.2016.03.160
View PDF Ver registro en Scopus Google Académico
[4] Martinez-de Dios J.R., Arrue B.C., Ollero A., Merino L., Gómez-Rodríguez F.
Técnicas de visión artificial para la percepción de incendios forestales
Image Vis. Comput., 26 (4) (2008), págs. 550-562, 10.1016/j.imavis.2007.07.002
View PDF Ver registro en Scopus Google Académico
[6] Ertugrul M., Varol T., Ozel H.B., Cetin M., Sevik H.
Influencia del factor climático de los cambios en el peligro de incendio forestal y la duración
de la temporada de incendios en Turquía
Medio ambiente. Monit. Assess., 193 (1) (2021), págs. 1-17, 10.1007/s10661-020-08800-6
View PDF Ver registro en Scopus Google Académico
[7] Lucas-Borja M.E., Zema D.A., Carrà . B.G., Cerdà A., Plaza-Alvarez P.A., Cózar J.S., Heras J., et al.
Cambios a corto plazo en la infiltración entre suelos cubiertos con y sin mantillo después de
un incendio forestal en ecosistemas forestales mediterráneos
Ecol. Ing., 122 (2018), pp. 27-31, 10.1016/j.ecoleng.2018.07.018
View PDF Ver registro en Scopus Google Académico
[13] Kaufmann H., Segl K., Chabrillat S., Hofer S., Stuffler T., Mueller A., Bach H., et al.
EnMAP un sensor hiperespectral para mapeo y análisis ambiental
En 2006 IEEE International Symposium on Geoscience and Remote Sensing, IEEE (2006), págs. 1617-1619,
10.1109/IGARSS.2006.417
View PDF Ver registro en Scopus Google Académico
[14] Cheon J., Lee J., Lee I., Chae Y., Yoo Y., Han G.
Un sensor de humo y temperatura CMOS de un solo chip para un detector de incendios
inteligente
IEEE Sens. J., 9 (8) (2009), págs. 914-921, 10.1109/JSEN.2009.2024703
View PDF Ver registro en Scopus Google Académico
Lu J., Behbood V., Hao P., Zuo H., Xue S., Zhang G.
[15]
Transferencia de aprendizaje mediante inteligencia computacional: una encuesta
Knowl.-Based Syst., 80 (2015), pp. 14-23, 10.1016/j.knosys.2015.01.010
View PDF Google Académico
[16] Lu J., Liu A., Dong F., Gu F., Gama J., Zhang G.
Aprendizaje bajo la deriva conceptual: una revisión
IEEE Trans. Knowl. Data Eng., 31 (12) (2018), pp. 2346-2363, 10.1109/TKDE.2018.2876857
View PDF Ver registro en Scopus Google Académico
[25] Verstockt S., Hoecke S.Van., Beji T., Merci B., Gouverneur B., Cetin A.E., Walle R., et al.
Un enfoque de análisis de vídeo multimodal para la detección de incendios en aparcamientos
Fuego Saf. J., 57 (2013), págs. 44-57, 10.1016/j.firesaf.2012.07.005
View PDF Ver registro en Scopus Google Académico
[27] Gaur A., Singh A., Kumar A., Kumar A., Kapoor K.
Algoritmos de detección de incendios basados en fuego y humo en video: una revisión de la
literatura
Tecnología contra incendios, 56 (5) (2020), pp. 1943-1980
View PDF CrossRef Ver registro en Scopus Google Académico
[29] J. Redmon, S. Divvala, R. Girshick, A. Farhadi, You only look once: Unified, real-time object detection, en:
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Vol. 77, 2016, pp. 9–788.
Google Académico
[30] J. Redmon, A. Farhadi, YOLO9000: better, Faster, Stronger, en: Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition, Vol. 726, 2017, pp. 3–7271.
Google Académico
[32] T.Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, S. Belongie, Feature pyramid networks for object
detection, en: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp.
2117–2125.
Google Académico
Bochkovskiy A., Wang C.Y., Liao H.Y.M.
[33]
Yolov4: Velocidad y precisión óptimas de detección de objetos
(2020)
arXiv preprint arXiv:2004.10934
Google Académico
[35] X. Qiang, G. Zhou, A. Chen, X. Zhang, W. Zhang, Forest fire smoke detection under complex backgrounds
using trpca and tsvb, Int. J. Wildland Fire
http://dx.doi.org.tdea.basesdedatosezproxy.com/10.1071/WF20086.
Google Académico
[36] Yang X., Yang J., Yan J., Zhang Y., Zhang T., Guo Z., Fu K., et al.
Scrdet: Hacia una detección más robusta para objetos pequeños, desordenados y rotados
Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computador (2019), pp. 8232-8241,
10.1109/ICCV.2019.00832
View PDF Ver registro en Scopus Google Académico
[39] Ma J., Shao W., Ye H., Wang L., Wang H., Zheng Y., Xue X.
Detección de texto de escena orientada arbitrariamente a través de propuestas de rotación
IEEE Trans. Multimed., 20 (11) (2018), pp. 3111-3122, 10.1109/TMM.2018.2818020
View PDF Google Académico
[41] Jadon A., Omama M., Varshney A., Ansari M.S., Sharma R.
FireNet: un modelo especializado de detección ligera de incendios y humos para aplicaciones
de IoT en tiempo real
(2019)
arXiv preprint arXiv:1905.11922 https://arxiv.org/pdf/1905.11922.pdf
Google Académico
[43] Khan S., Muhammad K., Hussain T., Del Ser J., Cuzzolin F., Bhattacharyya S., et al.
Deepsmoke: Modelo de aprendizaje profundo para la detección y segmentación de humo en
entornos al aire libre
Expert Syst. Appl., 182 (2021), Artículo 115125, 10.1016/j.eswa.2021.115125
View PDF Ver registro en Scopus Google Académico
[44] Yang X., Yang J., Yan J., Zhang Y., Zhang T., Guo Z., Fu K., et al.
Scrdet: Hacia una detección más robusta para objetos pequeños, desordenados y rotados
Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computador (2019), pp. 8232-8241
https://openaccess.thecvf.com/content_ICCV_2019/papers/Yang_SCRDet_Towards_More_Robust_Detec
tion_for_Small_Cluttered_and_Rotated_ICCV_2019_paper.pdf
Ver registro en Scopus Google Académico
[45] Jiang Y., Zhu X., Wang X., Yang S., Li W., Wang H., Luo Z., et al.
R2cnn: región de rotación cnn para la orientación robusta detección de texto de escena
(2017)
arXiv preprint arXiv:1706.09579 https://arxiv.org/ftp/arxiv/papers/1706/1706.09579.pdf
Google Académico
[46] Bao R., Palaniappan K., Zhao Y., Seetharaman G., Zeng W.
GLSNet: Red de flujos globales y locales para la clasificación de nubes de puntos 3D
2019 IEEE Applied Imagery Pattern Recognition Workshop, AIPR, IEEE (2019), pp. 1-9
http://dx.doi.org.tdea.basesdedatosezproxy.com/10.1109/AIPR47015.2019.9174587
View PDF CrossRef Ver registro en Scopus Google Académico
[47] Li C., Xu C., Cui Z., Wang D., Zhang T., Yang J.
Detección de objetos atendida en imágenes de teledetección
2019 IEEE International Conference on Image Processing, ICIP, IEEE (2019), pp. 3886-3890
http://dx.doi.org.tdea.basesdedatosezproxy.com/10.1109/ICIP.2019.8803521
View PDF CrossRef Ver registro en Scopus Google Académico
[48] Wang Y., Zhang Y., Zhang Y., Zhao L., Sun X., Guo Z.
Sard:Hacia la detección de objetos rotados consciente de la escala en imágenes aéreas
IEEE Access, 7 (2019), págs. 173855-173865
http://dx.doi.org.tdea.basesdedatosezproxy.com/10.1109/ACCESS.2019.2956569
View PDF CrossRef Ver registro en Scopus Google Académico
[49] Fu K., Chang Z., Zhang Y., Xu G., Zhang K., Sun X.
Red neuronal convolucional consciente de la rotación y multiescala para la detección de
objetos en imágenes de teledetección
ISPRS J. Fotograma. Teledetección., 161 (2020), pp. 294-308, 10.1016/j.isprsjprs.2020.01.025
View PDF View Record in Scopus Google Scholar
[53] Qin R., Liu Q., Gao G., Huang D., Wang Y.
MRDet: A multi-head network for accurate oriented object detection in aerial images
(2020)
arXiv preprint arXiv:2012.13135 https://arxiv.org/pdf/2012.13135.pdf
Google Académico
[54] Yang X., Yan J., Yang X., Tang J., Liao W., He T.
Scrdet++: Detección de objetos pequeños, desordenados y rotados a través de la eliminación
de ruido de características a nivel de instancia y el suavizado de pérdida de rotación
(2020)
arXiv preprint arXiv:2004.13316 https://arxiv.org/pdf/2004.13316.pdf
Google Académico
[56] Feng Pengming, Lin Youtian, Guan Jian, He Guangjun, Shi Huifeng, Chambers Jonathon
Toso: La distribución de Student'st ayudó a la detección de objetivos de orientación de una
etapa en imágenes de teledetección
ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE
(2020), pp. 4057-4061
https://arxiv.org/pdf/2101.11952.pdf
View PDF CrossRef Ver registro en Scopus Google Académico
[57] Xiao Zhifeng, Wang Kai, Wan Qiao, Tan Xiaowei, Xu Chuan, Xia Fanfan
A2s-det: Coincidencia de anclaje de eficiencia en la detección de objetos orientada a
imágenes aéreas
Teledetección., 13 (1) (2021), p. 73, 10.3390/rs13010073
View PDF Google Académico
[58] Pan Xingjia, Ren Yuqiang, Sheng Kekai, Dong Weiming, Yuan Haolei, Guo Xiaowei, Ma Chongyang, Xu
Changsheng
Red de refinamiento dinámico para la detección de objetos orientados y densamente
empaquetados
Actas de la Conferencia IEEE sobre Visión por Computadora y Reconocimiento de Patrones (2020), pp.
11207-11216
https://arxiv.org/pdf/2101.11952.pdf
Google Académico
[59] Sun Peng, Zheng Yongbin, Zhou Zongtan, Xu Wanying, Ren Qiang
R4det: Detector refinado de una sola etapa con recursividad y refinamiento de
características para la detección de objetos giratorios en imágenes aéreas
Image Vis. Comput., 103 (2020), Artículo 104036, 10.1016/j.imavis.2020.104036
View PDF Ver registro en Scopus Google Académico
[61] Zhao Pengbo, Qu Zhenshen, Bu Yingjia, Tan Wenming, Ren Ye, Pu Shiliang
Polardet: Un detector rápido y más preciso para el objetivo girado en imágenes aéreas
(2020)
arXiv preprint arXiv:2010.08720
http://dx.doi.org.tdea.basesdedatosezproxy.com/10.1080/01431161.2021.1931535
Google Académico
[66] Girshick R.
Fast r-cnn
Proceedings of the IEEE International Conference on Computer Vision (2015), pp. 1440-1448,
10.1109/ICCV.2015.169
View PDF Google Scholar
[68] Sermanet P., Eigen D., Zhang X., Mathieu M., Fergus R., LeCun Y.
Overfeat: Integrated recognition, localization and detection using convolutional networks
(2013)
arXiv preprint arXiv:1312.6229
Google Scholar
[69] Liu W., Anguelov D., Erhan D., Szegedy C., Reed S., Fu C.Y., Berg A.C.
Ssd: Single shot multibox detector
European Conference on Computer Vision, Springer, Cham (2016), pp. 21-37
Google Scholar
Mostrar resumen
Construcción del modelo de evaluación del entorno de enseñanza de inglés universitario basado en la
red neuronal bp y la teoría de la inteligencia múltiple
2022, Revista de Medio Ambiente y Salud Pública
1
Yaowen Hu y Jialei Zhan contribuyen igualmente a este trabajo.