基于卷积神经网络和小波变换的视频监控中的火灾探测-技术圈

1. 文章信息

本次介绍的文章是2022年发表在EngineeringApplications of Artificial Intelligence上的一篇关于火灾检测的文章，作者团队来自清华大学。

2. 摘要

火灾是威胁公共安全和社会发展的最常见的突发事件之一。近年来，以卷积神经网络为代表的智能火灾探测技术受到了学术界和工业界的广泛关注，大大提高了火灾探测的精度。然而，基于CNN的火灾探测系统仍然受到虚警的干扰和计算能力的限制。本文利用传统光谱分析在火灾图像检测技术中的优势，提出了一种新的小波- CNN方法，该方法利用二维Haar变换提取图像的光谱特征，并将其输入到不同层次阶段的CNN中。利用ResNet50和MobileNet v2(MV2)两个经典骨干网对该方法进行了测试，在一个基准火灾数据集和一个视频数据集上的实验结果表明，该方法提高了火灾探测的准确性，减少了误报，特别是对于轻型MV2。尽管计算需求低，小波- mv2达到的精度可与最先进的方法相媲美。

3. 介绍

火灾往往危及人的生命财产安全。为了最大限度地减少火灾损失，早期有效的火灾探测和自主响应非常重要和有用。在普通建筑中，基于物理信号的探测器，如烟雾传感器、热释放红外火焰探测器、紫外线火焰探测器等，被广泛用于火灾报警。然而，这些传统的物理传感器需要接近火源，因此无法在大型空间建筑和开放空间（如工厂和港口）中工作，并且无法提供火灾位置、大小和燃烧程度等火灾细节。为了克服这些限制，人们提出了基于视觉传感器的火灾探测系统。

视觉火灾探测系统具有以下优点：（1）依赖于越来越多的现有监控摄像头的低成本；（2）大的监控区域；（3）不等待火灾扩散的相对快速的响应时间；（4）不访问火灾现场的火灾确认；（5）火灾细节的可用性。因此，视觉火灾探测方法在过去十年中引起了特别的关注。

尽管进行了上述研究，但在实际应用中仍存在一些挑战。很难消除虚假火灾警报，因为这些方法可能会错误地将自然物体分类，如红色衣服、日落和光线反射。一旦大规模投入使用，高误报率可能会大大降低火灾探测效率，甚至导致火灾报警系统瘫痪。因此，视觉火灾探测的难点在于区分类火灾物体和实际火灾。

此文章将CNN和光谱分析相结合的方法引入火灾早期探测。具体来说，应用小波变换提取图像的光谱特征，然后将这些特征输入到CNN的不同层阶段。文章选择了最简单的小波2D Haar，因为它足以描述不同频率的火焰信息，但文章的方法并不局限于Haar。关键思想是，CNN中的卷积层和池层可以被视为光谱分析的一种有限形式。因此，这两层可以通过2D Haar变换进行推广，以实现光谱分析。为了评估该方法的效率，文章使用了来自多个来源的图像，其中包含大量的火焰和火焰颜色的图像。文章的主要贡献可以总结如下：

（1）它通过结合基于CNN的空间特征和基于小波变换的光谱特征，在准确性和误报率方面主导了最先进的视觉火灾探测方法。

（2）文章的方法显著提高了轻量级CNN的性能，平衡了准确性和计算复杂性。这通常有利于在资源受限的监控网络中进行适应。

（3）介绍了一个包含多种来源图像的多样化、平衡的火灾数据集。文章的数据集包括来自科西嘉火灾数据库（CFDB）的图像（图卢兹等人，2017年）、从福贾和夏尔马的数据集（福贾等人，2015年）中采样和增强的一些火灾和非火灾图像，以及来自互联网的背景中带有类似火灾物体的火灾和非火灾图像。

4. 模型

联合火灾探测方法的总体框架基于Faster R-CNN。

如上图所示，它有三个步骤：特征提取、区域建议生成以及分类和回归。Faster R-CNN进程使得它可以被视为一种分而治之的策略。基于块的模块化网络实现的分治策略具有一些优势。一方面，它为当前占主导地位的端到端方法提供了更多的可解释性。另一方面，已被证明是更有效和高效的任务分割成子任务和应用子网络模块，以找到非常复杂的任务。Faster R-CNN的具体流程如下。首先，将图像输入预先训练好的CNN层，得到特征金字塔网络（FPN）。FPN通常用于Faster R-CNN，其结构如上图右侧的插图所示。它是一种自上而下的体系结构，具有横向连接，用于在所有尺度上构建高层语义特征图。为了更好地分析火灾的光谱特征，文章采用了小波卷积神经网络代替传统的CNN。然后，使用提取的特征映射，区域建议网络（RPN）可以提出一定数量的ROI（兴趣区域）。最后，池层将ROI和特征图进行池化，然后输入到ROI头部（由完全连接的层和softmax层组成），以确定这些ROI的类别并微调其位置。文章的研究重点是为火灾探测设计更好的主干网络，而不是FPN或探测头的设计，并且忽略了自上而下的扩展和后来的连接。

A. 基于小波变换的特征提取

小波CNN模型的关键思想是将小波层与CNN层连接起来。文章进行了三次Haar变换。文章测试了两个典型的骨干网络；一个是高精度、重重量的ResNet50，另一个是轻重量的MobileNet v2。它们分别是服务器端和移动应用程序的代表性体系结构。这两种方法在计算机视觉和火灾探测文献中经常被用作baseline。

上图显示了小波CNN模型的概述，其中（a）是小波NET50，（b）是小波MV2。为了简单起见，文章使用3×224×224的输入图像来说明小波CNN结构。上图中的蓝色立方体代表ResNet50和MV2的卷积特征映射，橙色立方体代表小波特征。一般来说，FPN的计算成本和检测小目标的能力之间存在折衷。如果文章在FPN中重用更多的高分辨率特征映射，文章就能够检测更小的对象。在实际应用中，人们需要平衡FPN的层数和小目标的检测。在文章的实验中，文章发现上图中给出的FPN连接可以在文章的数据集上以相对较小的火提供令人满意的结果。

对原始图像进行第一次Haar小波变换，得到四个小波特征：LL1、HL1、LH1和HH1，每个特征有3个通道，大小为112×112。这些小波特征使用固定参数进行分解，而不会显著增加计算复杂度。然后，文章将这12个通道特征与相同大小的卷积特征连接起来。为了保持下一个卷积层的参数不变，文章从原始卷积特征中删除了12个通道。对LL1进行第二次Haar小波变换，得到大小为56×56的LL2、HL2、LH2和HH2。然后文章将这些小波特征与相同大小的卷积特征连接起来。类似地，执行第三个Haar小波变换。

B.用RPN生成Region Proposal（区域建议）

本阶段的目的是提出对象的可能位置，也称为边界框或锚。为了生成区域建议，更快的R-CNN将选择性搜索过程替换为RPN。RPN的结构如下图所示。

从小波CNN中提取的特征映射被输入到RPN模块，以同时学习对象的类别以及相关的边界框。输出是一组候选边界框，每个框都有一个对象性分数，表示对象属于某个类的概率。通过这种端到端的训练过程，整体计算复杂度显著降低，同时性能得到改善。提高计算效率仍然是一个有待解决的问题，后来开发了几种新的体系结构，如无锚和检测变压器，以实现更高效或更直接的目标检测，而无需此锚提议阶段。RPN为每个图像生成1000个建议，有些建议相互重叠。为了减少冗余，常用的方法是非最大抑制（NMS）算法。将提案1000框列表表示为B，并将过滤后的提案列表表示为D（最初为空）。NMS的过程如下。首先，选择置信度最高的方案框，将其从B中删除并添加到D中。然后，计算该方案与其他所有方案的IOU（联合交叉）。如果IOU大于阈值N，则从B中删除该提案。再次从B中的剩余提案中获取具有最高可信度的提案，并将其从B中删除，然后将其添加到D中。再次使用B中的所有提案计算该提案的IOU，并删除IOU高于阈值的框。重复这个过程，直到B中没有更多的方案。

C. 基于ROI-Head的分类与回归

通过RPN中的ROI池层，文章可以获得每个候选方案的特征向量，它代表了对象属于某一类的概率。然而，该地区提案的具体类别和准确位置仍不得而知。为了解决这个问题，这些特征向量被输入到ROI头部，在ROI头部执行完全连接的层和softmax层，以确定提案所属的类别并计算其对象性得分。同时，利用包围盒回归得到每个区域方案相对于地面真值盒的偏移量的预测值，利用该预测值可以修改区域方案并微调其位置。

5. 实验结果与讨论

本节中，文章进行了详细的实验，以评估和比较文章的方法与其他先进方法的性能。首先，详细描述了用于实验的数据集。然后，为了证明文章提出的方法提高了火灾探测效果，文章将单个CNN的识别率与小波变换和不同结构CNN的组合模型进行了比较。为了证明该方法的优越性，文章还将结果与最近在基准数据集中发布的相关方法进行了比较。最后，针对监控视频场景，增加了视频帧的多数投票机制，并用火灾和非火灾视频对其进行了测试。

A. 数据集描述

在实验中，文章使用了两个图像数据集（ImgDS1和ImgDS2）和一个视频数据集（VDS3）。ImgDS1用于培训和测试。它包含来自科西嘉火灾数据库（CFDB）的1135幅火灾图像（图卢兹等，2017年），从Foggia和Sharma的数据集（Foggia等，2015年）采样和增强的一些火灾和非火灾图像，以及来自互联网的一些火灾和非火灾图像（谷歌和百度）。此类非火灾图像包含一些难以与火灾图像区分的图像，如高照度的鲜红色房间、日落、红色房屋和车辆、不同黄色和红色阴影的明亮灯光等。ImgDS2包括119幅火灾图像和107幅火灾图像。这里使用ImgDS2作为基准数据集，用于测试并与其他已发布的方法进行比较。文章使用80%的ImgDS1图像进行训练，其余图像用于测试。在这种设置下，文章的模型接受了2190幅火灾图像和2215幅非火灾图像的训练。培训和测试数据统计见下表。

ImgDS1和ImgDS2的一些代表性图像如下图所示。

视频数据集VDS3也用于测试。VDS3由8个火灾视频和12个非火灾视频组成，这些火灾视频包含来自大型空间工厂和仓库等室内设施以及高速公路、公园和加油站等室外场所的火灾。它们还包括房屋火灾、电气火灾、泄漏火灾，以及从点火、发展、繁荣到熄灭的不同火灾发展阶段。该数据集中的样本图像如下图所示。

视频细节如下表所示。

B. 图像实验

首先，文章使用ImgDS1来比较文章提出的模型与传统CNN的性能。文章使用ImageNet对原始CNN和小波CNN模型进行预训练，并通过将其与FPN相结合，使用文章的数据集对其进行微调。在实践中，使用大规模公共可用数据集（如ImageNet）进行适当的预训练，可以帮助训练数据有限的特定任务的训练。文章使用V100 GUP随机梯度下降（SGD）对所有模型进行训练，批量大小为8，学习率为0.01。采用翻转、旋转和裁剪等标准数据增强方法，使输入图像的大小达到224×224。

文章比较了有小波层和没有小波层的CNN模型如下图对比。

可以看出，无论是ResNet50还是MV2，小波变换都使假阳性率和假阴性率降低，而准确度、精密度、召回率和Fmeasure增加。对于MV2，图像的假阳性率降低了8.9%，准确性提高了4.7%，精确度提高了6.3%，这是一个显著的改进。用盒子测量的性能有点低，这可能是由于火焰边界模糊导致图像标签的一致性差造成的。尽管如此，值得注意的是，使用小波变换的模型的性能得到了改善。这些结果证明了该方法的有效性文章提出的方法的一部分。也就是说，拼接小波层可以提高CNN模型尤其是轻量级CNN模型的纹理识别能力，从而提高火灾探测的性能。在实际应用中，信噪比影响图像质量。文章添加高斯噪声来模拟受干扰的图像，其中平均值设置为零，标准偏差设置为0、10、20、30、40和50，代表不同的噪声水平。检测结果如下图所示。

可以看到，随着噪声的增加，所有模型的性能都会变差。与原始模型相比，小波模型对高噪声具有更强的鲁棒性。

将文章提出的方法与参考文献中使用ImgDS2的现有火灾探测方法的性能进行了比较。虽然ImgDS2不是很大，但它非常多样化，并且有很多令人困惑的图像。文章将文章的方法与10种有代表性的方法进行了比较，包括4种基于CNN模型的方法和5种基于火的颜色、运动和形状特征等手工特征的方法。文章不与通用探测方法进行比较，因为探测火灾与COCO或其他通用数据集中的探测非常不同。使用精度、召回率和F-measure的评估指标，比较结果如下表所示。

其中最后四个是手工制作的特征模型。首先，需要注意的是，ImgDS2并没有用于所有基于CNN的模型的训练过程，包括文章提出的方法和四个基本CNN模型。然而，尽管手工制作的功能模型在训练中使用ImgDS2，但它们在测试中表现最差。基于CNN的模型在性能上有了全面的质量改进。将文章的方法与其他CNN模型进行比较，可以看出，在精确度和召回率方面，这些方法具有不同的特点。但就F-度量而言，文章可以看到文章的方法总体上更好。此外，文章的方法的召回率达到1，这意味着没有遗漏任何火灾图像。这对实际应用非常重要。文章还检查了文章方法的假阳性图像，其中小波-ResNet50产生15个假阳性图像，小波-MV2产生21个假阳性图像。一些典型的假阳性图像如图13所示。文章可以看到橙红色灯光是假警报的主要来源。在后一项研究中，可以向训练集中添加更多的负光照样本来解决这个问题。

对于真实的监控场景，火灾探测系统对攻击的鲁棒性非常重要。文章测试了方法对不同攻击（如噪声、阻塞和旋转）的性能的影响。文章考虑两个测试图像，一个是火灾图像，另一个是非火灾图像。

原始火灾图像如上图（a）所示，所有模型均能正确检测到。在上图（b）中，图像中的火灾区域受到噪声干扰，模型仍能检测到噪声。小波自适应CNN的检测置信度高于相应的CNN。在上图（c）中，火灾区域被旋转并部分遮挡，文章的方法成功地检测到火灾物体。在上图（d）中，火灾区域完全被遮挡，文章的方法将其预测为无火灾。为了显示对像火焰的性能的影响，文章考虑上图（E）中的图像，通过文章的方法预测为无火。上图（f）和（g）给出了带有噪声和红色图案的火焰状图像。文章发现，小波自适应模型仍然能够正确预测火灾。为了确认文章的方法可以检测到小尺寸的火灾，文章在上图（h）上放置了一个小火灾图像。小波模型以更高的置信度正确地检测它们。这些测试表明，即使视频帧受到噪声的影响或火灾的大小很小，文章的检测方法也可以检测到火灾，这验证了其更好的性能。

C. 视频实验

在本节中，文章使用VDS3演示了文章提出的从真实监控视频中检测火灾的方法的有效性。文章从视频中每秒随机抽取五帧，并将其输入到文章提出的模型中。然后进行多数机制，即如果每秒五帧中的三帧或更多帧被检测为火灾图像，则会发出火灾警报；否则，没有警报。计算效率仍然可以用FPS表示。为了更直观，文章以视频1为例进行进一步阐述。视频1的持续时间为6分钟和20秒。MV2处理视频需要6分钟和21秒，小波-MV2处理视频需要6分钟和20秒，ResNet50处理视频需要10分钟和56秒，小波-ResNet50处理视频需要10分钟和27秒。一般来说，在本文的测试环境下，小波MV2和MV2可以实现实时处理。为了测量性能，文章计算了混淆矩阵、精确度、召回率和每秒F-测量值，如下表所示。

一般来说，小波自适应模型的性能高于相应的原始模型，尤其是FPR为0，这意味着没有虚警。这对于火灾探测尤为重要。传统的感烟火灾探测器由于粉尘和水蒸气的干扰，常有较高的虚警率，可能导致报警瀑布和火灾报警系统瘫痪。降低误报率可以提高效率，这对于基于物联网的智能城市建设至关重要。ResNet50和MV2的假警报出现在video11和video13中，这是由橙色红灯引起的，如下图所示。

6. 结论

本文提出了一种CNN和光谱分析相结合的早期火灾探测方法。文章应用2D Haar变换提取图像的光谱特征，然后在不同的层次将其输入CNN。两个经典的骨干网络被用来测试文章的方法，高精度和重型ResNet50和轻型MV2。结果表明，无论采用何种网络，小波层的引入都可以降低误报率、误报率和计算复杂度，提高准确度、精确度、召回率和F-测度。对于轻量级MV2来说，上述指标的性能提升更为明显。也就是说，小波变换的结合可以提高CNN的火灾识别能力，尤其是轻质CNN。通过对真实监控视频的测试进一步证明，该模型在精度和速度上都能满足实时火灾探测的要求。文章提出的方法可用于化工厂和其他高火灾风险行业。该方法的精度和速度能够满足实时火灾探测的要求。其工业部署将有助于在早期阶段探测火灾，促进应急管理，从而有助于预防损失。本研究仍存在一些不足之处，有待改进。首先，文章的模型不能消除所有的误报。可以将更多橙红色照明图像、一些电气火灾图像和黑白模式下的火灾图像添加到训练集中，以解决此问题。其次，为了验证小波分析和CNN火灾探测模型相结合的普遍性，可以测试更多类型的CNN网络，比如视觉变压器。此外，当应用于视频流分析时，该模型应与推理理论相结合，以提高检测精度。