点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

作者丨CY

来源丨当交通遇上机器学习

编辑丨极市平台

极市导读

本次介绍的文章是太原理工大学团队在2022年发表在《Sustainability》的关于火灾检测的小目标实时检测工作。

1.文章信息

论文链接：https://www.mdpi.com/2071-1050/14/9/4930/htm

2.摘要

针对森林火灾图像中小目标、类火目标和类烟目标的检测，以及不同自然光下的火灾检测，提出了一种改进的Fire-YOLO深度学习算法。Fire-YOLO检测模型从三维扩展了特征提取网络，增强了火灾小目标识别的特征传播，提高了网络性能，减少了模型参数。进一步，通过特征金字塔的提升，得到了性能最好的预测框。与最先进的目标检测网络相比，Fire-YOLO取得了优异的结果，尤其是在火灾和烟雾的小目标检测方面。总体而言，Fire-YOLO检测模型可以有效地处理小火源目标、类火和类烟目标的检测。当输入图像尺寸为416 × 416分辨率时，平均检测时间为0.04 s /帧，可以提供实时的森林火灾检测。此外，文章提出的算法也可以应用于其他复杂情况下的小目标检测。

3.简介

火灾探测对于保护森林资源、保护人民生命财产至关重要。近年来，随着火灾图像探测成为研究热点，图像探测具有探测时间早、精度高、系统安装灵活、能有效探测大空间复杂建筑结构火灾等优点。一类方法基于火灾发生时的颜色识别，但基于颜色的方法对亮度和阴影非常敏感。因此，这些方法产生的假警报数量很高。

随着机器学习的发展，深度学习技术已广泛应用于检测。有学者提出了一种使用微调卷积神经网络（CNN）的早期火灾探测框架，但该模型具有较高的计算成本。有的学者使用深度融合CNN进行烟雾探测，它结合了注意机制、特征级和决策级融合模块。然而，仍有一些小目标未能实现。有的学者使用了一种基于区域的快速卷积神经网络（R-CNN），根据空间特征检测可疑火灾区域（SRoF）和非火灾区域。这可以通过减少错误探测成功地提高火灾探测精度，但探测速度相对较慢。有的学者提出了一种基于YOLO-V3和YOLO-V4的森林烟雾检测算法。与YOLO-V4相比，YOLO-V3的模型更小，更易于部署。在此基础上，文章选择了YOLO-V3模型作为整体算法，并对其进行了改进。提出了对YOLO-V3算法的改进。网络中加入了空心卷积和DenseNet，提高了火灾早期小规模火焰的探测效果。然而，方法存在火焰定位不准确和屏蔽性能差的问题。I-YOLOv3-tiny模型通过网络结构优化、多尺度融合和K-均值聚类来提高检测精度，但检测速度有待提高。通过提高特征图的分辨率，它减少了火灾探测中的误差，但由于计算量的增加，相应的处理时间也增加了。将分类模型和目标检测模型结合用于火灾探测的方法降低了计算成本，提高了探测精度。尽管如此，它不适用于火灾早期小目标的探测场景。有的学者通过将原始网络结构中的两步降采样卷积网络替换为图像双分割和双线性上采样网络，扩大了小目标的特征，提高了小目标的检测精度。虽然这会增加参数的数量，但计算成本也会增加。对于具有实时性要求的火灾探测，仍需进一步改进。这些问题给火灾场景中小目标的检测带来了巨大的挑战。

4.模型

A. YOLO-V3

YOLO- v3是由YOLO和YOLOV2网络演化而来的对象检测模型。与Faster R-CNN相比，YOLO- v3是单级检测算法，这意味着YOLO网络不需要Regional Proposal network (RPN)，而是直接检测图像中的目标。这样既考虑了检测速度和检测精度，又减小了模型参数的尺寸。

YOLO-V3对每个类别独立使用逻辑回归，取代了DarkENT-19到DarkENT-53的特征提取网络。YOLO-V3几乎与其他目标检测算法一样精确，但速度至少是后者的两倍。YOLO-V3的特征提取网络为Darknet-53。Darknet-53通过不断地使用卷积、标准化、池化等操作，提取输入到YOLO-V3网络的火灾图像的特征，并通过卷积不断地对火灾图像进行特征提取。这种方法广泛应用于其他各种网络模型中，ResNet也通过增加网络的深度来提高网络的精度。虽然可以同时缩放两个或三个维度，但由于深度和宽度之间有一定的关系，需要进行复杂的手动调整，也就是说只能调整深度和宽度才能达到更好的精度。目前，YOLO-V3模型在火灾探测中并未得到广泛应用。

B.Fire-YOLO

Fire-YOLO是一种单阶段检测模型。FireYOLO用于火灾探测的步骤如下所示。首先,网络输入火灾图像分为S×S网格,和检测在每个探测单元格:是否有火焰或者烟雾的中心目标是发现落在S2的网格,网格负责检测目标被检测出来。然后，每个网格预测3个边界框，并给出这些边界框的置信度。置信计算的定义如下。

当目标落在网格中时Pγ = 1，否则Pγ = 0。IoU表示预测边界框与真实边界框的重合。置信度反映了网格中是否存在对象以及包含对象时预测边界框的准确性。当多个包围盒同时检测到同一目标时，YOLO网络将使用非最大抑制(Non-Maximum Suppression, NMS)方法选择最佳包围盒。利用卷积神经网络对视频中的火情和烟雾进行分类来检测火情，具有良好的准确率。文章提出的Fire-YOLO模型从深度、宽度和分辨率三个维度考虑，实现了更加均衡的网络架构。Fire-YOLO火灾探测步骤如下图所示。将输入图像划分为S×S网格，每个网格预测三个边界框和置信度分数。然后，使用非最大值抑制方法选择最佳边界框。

Effentnet的提出为设计一种标准化的卷积神经网络尺度方法提供了可能。通过平衡网络深度、宽度和分辨率这三个维度，可以在深度、宽度和分辨率这三个维度上实现更均衡的网络架构，而无需复杂的人工调整。由于火灾数据集中大量的检测对象为小火焰和烟雾，这种简单高效的复合尺度变换方法相对于其他的一维尺度变换方法可以进一步提高火灾的检测精度，并能充分节约计算资源。最终，文章使用的改进后的Effentnet比精度相同的卷积神经网络速度更快，参数更少，模型更小，具有明显的优势。提出的Fire-YOLO火灾探测模型网络结构如下图所示。

与YOLO-V3中特征提取网络Darknet53中使用的残块不同，Fire-YOLO的特征提取网络使用了一个移动倒瓶颈卷积(MBConv)，该卷积由深度卷积和挤压-激活网络(SENet)组成。MBConv块的结构,最重要的是,一个1×1卷积内核用于增加图像的维数,接下来通过切除卷积和SENet反过来,最后用1×1卷积内核来减少图像的维数输出。输入图像经过特征提取网络并上采样后，得到对应的特征图，即图像对应的向量特征矩阵。为了获得小目标的高层特征信息，特征图将经过卷积集处理，卷积集由5个卷积层组成，卷积核交替为1 × 1和3 × 3。然后利用池化层将高维向量扁平化为一维向量，由激活函数进行处理。将这些向量输入到激活函数中，得到相应的分类结果，并选择最有可能的结果作为特征提取网络输出。针对Darknet-53特征提取网络在深度、宽度和分辨率三个维度平衡方面的性能缺陷，文章在文章提出的fire数据集上使用改进的Effecentnet特征提取网络，弥补了Darknet-53在小目标检测方面的性能不足，提高了小目标检测的特征提取能力。对于输入的小目标图像，增强了小目标特征的学习能力，提高了小目标特征提取网络的性能。

为了更好地处理小目标图像，Fire-YOLO模型首先将输入图像缩放到416 × 416像素，然后使用Effecentnet从图像中提取特征。经过多层的深度可分卷积、全局平均池化、特征压缩和特征扩展，对深度可分卷积学习到的特征映射进行上采样。通过特征金字塔处理得到不同尺度的预测框。文章提出的Fire-YOLO模型预测了13 × 13、26 × 26、52 × 52三种不同尺度的边界盒。用于小目标检测的深度可分离卷积结合了逐条通道卷积和逐级点卷积两种级别，提取不同粒度的小目标特征。深度可分卷积的结构如下图所示。

通过比较YOLO-V3中使用的Darknet-53特征提取网络、快速R-CNN中使用的RPN目标建议网络和Fire YOLO中使用的深度可分离卷积，发现深度可分离卷积在计算复杂度方面具有优异的性能。这种卷积结构加快了模型的训练速度，提高了模型的检测精度。在火灾探测模型的实际应用中，可以加快网络的处理速度，如果计算量较小，可以达到实时图像处理的目的，从而实现火灾危险的实时探测。同时，该模型的硬件要求也降低了，以便于部署。

SENet主要由两个阶段组成。第一个阶段是挤压阶段。第二个阶段是激发阶段。在获得挤压的矢量后，使用完全连接的层，并预测每个通道的重要性。随后，将其应用于与初始特征映射相对应的信道，以便小目标的特征信息将被赋予更高的优先级。SENet的结构如下图所示。

在深度学习网络模型中，激活函数是一个连续可导的非线性函数，可以拟合非线性关系。激活函数及其导数的形式比较简单，可以加快网络的学习速度。正确使用激活函数对模型的训练和模型对目标预测的准确性都具有重要意义。活化函数的导数不宜过大或过小，最好稳定在1左右。文章提出的模型使用了Swish激活函数，其表达式为：

其中β是常数或可训练参数。Swish具有无上界、无下界、光滑、非单调的特点。Swish在深度模式上比ReLU要好。乙状结肠的饱和函数很容易导致梯度的消失,借鉴ReLU的影响,当它是非常大的,它将方法,但当x→∞,函数的一般趋势比ReLU ReLU相似但更复杂。Swish函数可以看作是一个介于线性函数和ReLU函数之间的平滑函数。

C. 性能指标

文章利用训练后的Fire-YOLO模型对测试图像进行一系列实验，验证算法的性能。评价神经网络模型有效性的相关指标有:precision, recall, F1, AP值。在二元分类问题中，根据真类别和预测类别的组合，样本可分为四种类型:真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)。分类结果的混淆矩阵如下表所示。

其余指标的公式根据混淆矩阵计算如下：

5.实验分析

本节介绍训练网络的实验环境、数据集、模型效果评价指标以及实验结果分析。通过一系列不同模型的对比实验，分析了文章提出的新模型的优越性。实验过程中使用了火数据集和小目标数据集。通过fire数据集对目标检测网络的准确性进行了验证和评估，在不同光照条件、类火烟雾目标等复杂环境下具有良好的检测效果;在小目标火力数据集上验证了该检测方法。结果证实，Fire-YOLO更容易检测到较小的目标。Fire-YOLO检测模型接收416 × 416像素图像作为输入，由于GPU性能限制，批处理大小设为8，每个模型训练100 epoch，初始学习速率为10−3，50 epoch后除以10。

A. 数据采集

实验中使用的数据集是通过采集消防公益平台上的消防图片来构建的。将fire数据集和小目标数据集分别划分为训练集、验证集和测试集，以便在相同的实验设置下对不同的模型进行训练。第一个数据集为火焰数据集，文章使用的图像数据是公共网站上收集的火灾和烟雾图像。这19819张原始图像包括不同天气和光线线下的火焰和烟雾。在对以上数据集图像进行编号后，使用LabelImg工具进行手动标记，包括绘制边框和分类类别。考虑到标签与数据的对应关系，为保证数据集分布均匀，将数据集按70%、20%、10%的比例随机分为训练集、验证集和测试集。为了保证实验环境相同，最终数据集以PASCAL VOC数据集格式存储。为了防止神经网络中过拟合，对于像素区域不清晰的阳性样本不进行标记。完成的数据集如下表所示。

第二个数据集为小目标检测数据集，文章自制了370张图像的数据集。数据集的内容都是包含小目标的火焰和烟雾。通过将250 × 250像素的火焰图像嵌入到1850 × 1850像素的图像中，可以使被探测目标在图像中的面积非常小。最后使用LabelImg工具手工标注小目标。

B. 算法的比较分析

为了验证模型的性能，文章使用火焰和烟雾图像作为训练集。将所提出的模型与YOLO-V3和Faster R-CNN检测方法进行了比较。三种模型在试验过程中的P-R曲线如图5所示。

准确率、召回率、F1评分和mAP值如下表所示。

基于以上结果，文章提出的Fire-YOLO在检测性能上优于YOLO-V3和Faster R-CNN。Fire-YOLO模型的精度为0.915,F1的值为0.73,mAP的值为0.802，高于其他两个模型，体现了该模型的优越性。同时Fire-YOLO降低了计算成本，节约了资源，更有利于社会的可持续发展。

C. 小目标的检测性能

在火灾探测过程中，由于摄像机离火源太远，实际的火源位置在捕获的图像中只占很小的区域，这将导致网络模型对火焰和烟雾的探测非常差。通过比较三种不同的目标检测模型在小目标火灾数据集上的准确率、召回率和mAP，可以得出文章提出的Fire-YOLO模型对非常小的目标对象的检测效率优于Faster R-CNN和未改进的YOLO-V3网络。训练于射击小目标数据集的Fire-YOLO对待检测小目标图像在深度、宽度和分辨率三个维度上进行自适应调整，增强了信息之间的交互作用。从而增强了Fire-YOLO提取小目标特征的能力，提高了小目标物体的检测精度。下表给出了三种模型方法对小目标射击数据集评价指标的具体结果。

三种不同模型对小目标火力数据集的检测效率差异较大。文章提出的Fire-YOLO模型的准确率和召回率比其他模型更显著。准确率可达75.48%，可实现对小目标的检测。森林火灾的早期及时发现可以大大减少对生态环境的破坏，减少火灾造成的经济损失，促进生态环境的可持续发展。训练后Fire-YOLO网络模型具有良好的火力目标探测效率。文章使用Fire-YOLO模型来检测非常小的火力目标，并将检测结果图形化显示。较小的射击目标是小目标射击数据集中验证数据集中的所有图像。对Fire-YOLO进行了30多个验证插图的验证，最终的图像检测结果如下图所示。Fire-YOLO可以检测到图片中所有的火和烟，而YOLO-V3和Faster R-CNN在检测结果中只能检测到图像中的部分目标。

D. 类火和类烟目标的探测性能

通过对比模型对丰富的类火和类烟图像的检测性能，可以发现Fire-YOLO对类火和类烟目标具有更好的检测效率。除了Fire-YOLO，其他模型分别将图像中的光和云误判为火和烟。显然，Fire-YOLO对图像纹理特征更加敏感，这是由于在特征提取网络中结合了1 × 1卷积核和SE模块。最后，提高了该模型在探测混淆目标时的鲁棒性。三种模型的类火和类烟检测结果如下图所示。在上述情况下，Fire-YOLO模型大大减少了误检的发生，减少了劳动力消耗，节约了社会资源。

E. 模型在不同自然光下的检测性能

本节通过对比不同自然光照条件下的多幅火灾图像，测试Fire-YOLO在真实环境中的性能。在实际火灾探测现场，会出现光线不足或光线很强的情况。在这种场景下，会对火灾探测产生一定的影响。使用大尺度feature map对模型进行改进，识别小目标对象，但在弱光条件下存在误判。检测结果如下图所示。通过比较FasterR-CNN、YOLO-V3和Fire-YOLO模型的检测性能，结果表明该模型在不同光照条件下具有良好的性能，对光照变化具有较强的鲁棒性。Fire-YOLO模式的这些优势可以减少火灾对森林的危害，减少温室效应对人类的影响，促进可持续发展。

文章提出的Fire- YOLO模型在小目标、类火、类烟探测以及不同明度下的火灾探测等方面都取得了令人满意的效果。在实际应用中，该方法不仅具有实时性，而且具有良好的鲁棒性。然而文章检测算法仍然存在检测精度低、检测半遮挡目标具有挑战性的问题。这可能是由于在实际环境中探测火焰时，火灾的可变性和火灾蔓延的复杂性，造成了火灾检查的困境，如下图所示。

6.结论

文章结合火灾探测的effentnet方法，对YOLO-V3检测模型进行改进。新提出的模型可用于探测火焰和烟雾。文章提出的Fire-YOLO模型使用effecentnet对输入图像进行特征提取，促进了模型的特征学习，提高了网络性能，优化了YOLO-V3模型对极小目标的检测过程。实验结果表明，文章提出的Fire-YOLO模型比YOLO-V3模型性能更好，比FasterR-CNN性能更好。Fire-YOLO模型也能实时探测火力目标。森林火灾的快速准确检测可以减少森林火灾造成的经济损失，提高森林及其生态环境的保护，促进资源的可持续发展。未来的工作将集中在应用现有的模型来探测视频中火灾的大小等实际任务。此外，对小目标的检测和模型进行优化，进一步提高检测模型的精度。

好消息！

小白学视觉知识星球

开始面向外开放啦👇👇👇

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

Fire-YOLO：一种用于火灾检测的小目标检测方法