南京理工将 CNN 与 Transformer 结合,在变化检测准确度上显著提升,超越现有技术水平 !

AI人工智能初学者

共 17831字,需浏览 36分钟

 ·

2024-07-18 09:00

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群




想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF

行业技术方案👉AI安防、AI医疗、AI自动驾驶
AI模型部署落地实战👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「集智书童-知识星球」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

尽管深度学习,尤其是卷积神经网络(CNNs),已经彻底改变了遥感(RS)变化检测(CD),但现有方法常常由于忽视全局上下文和不完整的变化学习而遗漏关键特征。此外,转换网络在处理低 Level 细节上存在困难。

RCTNet通过引入(1)早期融合的主干网络以尽早利用空间和时序特征,(2)跨阶段聚合(CSA)模块以增强时序表示,(3)多尺度特征融合(MSF)模块以丰富解码器中的特征提取,(4)高效的自解码注意力(ESA)模块利用 Transformer 捕捉全局信息和精细细节以实现准确的变化检测,来克服这些局限性。

广泛的实验证明了RCTNet在传统RS图像CD方法上的明显优势,显示了在准确性和计算成本之间的显著提升和最佳平衡。

作者的源代码和预训练模型可在以下链接获取:https://github.com/NUST-Machine-Intelligence-Laboratory/RCTNet。

I Introduction

遥感(RS)图像中的变化检测(CD)是一项关键技术,用于识别在不同时间捕获的地理相同区域内的语义变化,如建筑开发或土地覆盖的修改。其应用广泛,支持包括灾害评估、城市规划、自然灾害监测等在内的多个领域。遥感图像通常包含复杂的背景,并且容易受到光照变化的影响。图1展示了现有遥感变化检测所面临的挑战。为了应对这些挑战,研究行人采用了各种技术。早期的CD方法依赖于像变化向量分析(CVA)、支持向量机(SVM)、Kauth-Thomas(KT)和主成分分析(PCA)这样的算法,这些算法需要复杂的特征工程,并且在泛化能力方面存在限制。

现代解决方案利用卷积神经网络(CNN)的力量来进行RS图像的CD任务。Daudt等人[1]首创了受U-Net启发的暹罗式全卷积网络(FCN)用于CD,并通过研究跳跃连接策略建立了基础框架。Hafner等人[2]使用双流U-Net融合来自Sentinel-1和Sentinel-2图像的数据,而DASNet[3]则采用扩展的注意力机制来增强建筑变化检测。然而,这些具有扩展感受野的方法常常面临CNN固有的全局表示与计算复杂度之间的权衡。这促使人们探索Transformer[4],以其在建模全局信息关系方面的卓越能力而闻名。这项技术之前用于自然语言处理,已经在视觉任务中取得了快速进展,例如图像分类、目标检测和分割。这导致了Transformer在双时相遥感图像CD中的整合,SwinSUNet[25]尝试了纯Transformer但遇到了计算挑战。Chen等人[26]提出了一种双时相图像Transformer(BIT)方法,将CNN和Transformer结合起来进行特征提取,但其单一尺度的性质限制了在细微变化区域的性能。Bandara等人[27]通过结合分层Transformer编码器和轻量级MLP解码器来解决这一问题,有效利用了多层特征,但时空细节的相关性效率较低。

受到对变化检测至关重要的高级语义信息和低级详细特征的互补性质启发,作者提出了RCTNet,一个集成了CNN和Transformer优势的混合网络。其核心是跨阶段聚合(CSA)模块,它融合了来自不同主干阶段的特征。这种融合丰富了目标的高级语义信息和细粒度细节,使模型能够捕捉图像中的广泛上下文和精细的细微差别。然后通过逐元素减法后跟绝对值操作计算时间差异特征,突出双时相图像之间的变化。这些聚合和增强的特征随后被送入轻量级U形解码器。该解码器包含两个核心模块:多尺度特征融合(MSF)和高效自解码注意力(ESA)。MSF通过在多个尺度上提取信息,进一步增强了特征的表达能力。同时,ESA将全局语义关系引入到每个解码层,使模型能够有效地捕捉复杂的目标变化,最终提高准确性。作者的贡献可以总结如下:

(1)作者引入了一个新的CSA模块,它无缝地集成了来自主干网络不同阶段的特征。这种融合丰富了高等级和低等级特征图中的语义信息和细粒度细节,使模型能够捕捉到上下文和细微的变化。

(2)作者开发了一个轻量级的U形解码器,包括两个核心模块:MSF和ESA。MSF通过多尺度特征提取改善了不同层次输出特征之间的语义关系,而ESA则通过在每一层计算全局语义关系来专注于提高特征准确性。

(3)作者在三个代表性的CD数据集上对RCTNet进行了严格的评估。与现有的最先进模型相比,RCTNet在所有基准数据集上均取得了优越或极具竞争力的性能,展示了其在变化检测任务中的卓越有效性。

II Methodology

Overview

图2展示了RCTNet的总体架构。大小为 的输入双时相图像 被送入一个共享权重的孪生网络以提取特征。RCTNet通过四个阶段对图像进行下采样,每个阶段包含一个步长为2的卷积层。这种逐步下采样使得网络能够学习不同尺度的语义特征,增强了训练的稳定性。每个阶段还使用最大池化进行下采样和特征保持,便于提取更高层次的特征。

RCTNet采用轻量级的RegNet [28]进行特征提取。作者提出的跨阶段聚合(CSA)模块融合了来自不同主干阶段的特征,丰富了特征图中的语义信息和细粒度细节。一个轻量级的U型解码器,带有两个核心模块,进一步细化了提取的特征。多尺度特征融合(MSF)通过提取多尺度特征增强了语义关系,而高效的自我解密注意力(ESA)将全局语义连接引入到每个解码层,最终提高了模型的准确性。

Cross-Stage Aggregation

跨阶段聚合(CSA)模块包括四个平行的分支,每个分支处理来自相应双时相图像的主干网络的各个阶段提取的特征。关注第二个分支(见图3),作者说明了如何将特征图 (从图像 的第 阶段提取)转换为输出特征图 。为了对齐空间分辨率, 经历最大池化和具有通道调整的 卷积层。类似地, 接收一个 卷积层进行通道匹配。特征 通过双线性上采样和使用 卷积层进行通道减少来降采样,使它们与中间分辨率对齐。最后,所有对齐的特征图被连接起来,并经过最终的 卷积层处理,该层具有批量归一化和ReLU激活,生成输出

CSA模块通过为四个分支分配以下通道数量来仔细平衡特征数量和细节:32、64、32和16。这个配置保留了来自较浅层的高分辨率特征(32个通道),同时融入了来自较深层的有语义信息(64个通道)。实际上,该模块利用了细节和上下文来丰富聚合表示。完整的特征转换过程可以总结为:

这里, 表示最大池化操作, 表示双线性上采样。每个 是从图像 的第 阶段的主干网络中提取的特征图。这些特征通过连接来捕捉更丰富的空间上下文信息。

在CSA分支中的特征转换之后,作者进一步细化了 和连接的特征。一个 卷积层将 投影到一致的嵌入维度,而一个 卷积层转换连接的特征。这些处理过的表示随后进行矩阵乘法操作,使得不同的组件捕获的全局和局部信息得以融合,形式化为:

其中 表示矩阵乘法, 表示特征连接。 是最终的输出特征图, 是转换后的 。对其他CSA分支执行类似操作,使得不同空间尺度和语义层次的信息得以整合。

Paying Attention to Multi-Scale Features

多尺度融合。 为了增强对时间变化信息的捕捉,作者引入了多尺度融合(MSF)模块,利用一系列卷积操作。如图4(a)所示,MSF分为四条路径,每条路径都对前一个基础特征图应用卷积。这些路径在不同的尺度上提取特征,通过拼接丰富了最终的表示。

此外,作者采用了残差学习来保留显著信息,产生更具表现力的图像特征。

高效的自解码注意力机制。 尽管U型网络结构有效地结合了多级特征,但其输出缺乏全局语义上下文,限制了变化检测(CD)的准确性。受到SegFormer [38]的启发,作者引入了高效的自解码注意力(ESA)模块,以在解码器层之间整合全局语义关系。图4(b)展示了ESA,它类似于标准的自注意力结构,但采用了序列减少以提高计算效率。假设头 的每个维度都是 ,即每个维度为 个向量,自注意力表示为:

传统上,自注意力具有 的时间复杂度,其中 表示序列长度。为了解决这个问题,ESA利用了具有减少比 的序列减少。这涉及两个步骤:首先,将键矩阵 Reshape 为 ,同时保留信息。其次,线性层将 Reshape 后的矩阵投影回原始维度 。对值矩阵 也应用类似的操作。因此,时间复杂度降低到 ,显著提高了效率。在作者的实验中,将所有解码器阶段的 设置为4。

Loss Function

本文采用混合损失函数来增强训练,结合了二进制交叉熵(BCE)和Dice损失的优势。作者的损失函数定义为:

其中 关注像素级分类准确性,并表述为:

其中 是预测的变化图, 是相应的真实值, 表示元素乘积。Dice损失强调预测与真实值之间的空间重叠,计算如下:

其中 表示 范数。对于作者的多阶段预测,总损失是通过将所有阶段的单个损失相加来计算的:

其中 表示第 阶段的预测变化图。

III Experiments

Experimental Setup

数据集。 在这项工作中,作者将在三个具有挑战性的变化检测基准上评估作者的RCTNet:WHU-CD [29],LEVIR-CD [30],和SYSU-CD [31]。LEVIR-CD包含637对图像,分辨率为1024 x 1024,WHU-CD包含一个尺寸更大的单一图像对,为32,507 x 15,354,而SYSU-CD为CD任务提供了大量的20,000个图像块( ,0.5米分辨率)。

评估指标。 为了全面评估作者方法的性能,作者计算了四个关键指标:精确度(P),召回率(R),F1分数(F1)和交并比(IoU)。这些指标定义如下:

其中TP、TN、FP和FN分别代表真正例、真负例、假正例和假负例。

实现细节。 作者的RCTNet实现使用了PyTorch库[39],并使用NVIDIA V100 GPU进行训练和测试。网络的主干网络使用从ImageNet上训练的RegNetY-1.6GF模型[28]的预训练权重进行初始化。作者采用Adam优化器[40],动量为0.9,权重衰减为0.0001,参数 分别设置为0.9和0.99。初始学习率为0.0005,并在训练过程中使用幂为0.9的多项式学习率衰减动态调整。作者以批量大小32进行50,000次迭代训练。遵循之前的工作[1, 27, 33, 34],作者将这些数据集中的图像划分为 大小的块。作者对输入图像应用随机翻转、裁剪和时间交换来增强训练数据。

State-of-the-art Comparisons

为了全面评估作者提出的RCTNet在双时相遥感图像变化检测任务中的有效性和效率,作者将其与几种最先进的方法进行了对比。

定量结果。与几种最先进的变化检测方法相比,作者的RCTNet在基准数据集上的表现超越了它们,如表格I所示。与现有方法相比,RCTNet在F1和IoU指标上表现最佳。特别是对于WHU-CD数据集,作者的RCTNet(带RegNet)在F1和IoU指标上分别提高了1.672.99。此外,如表格II所示,RCTNet在保持强大性能的同时展现出有竞争力的计算效率,具有更少的参数(Params)和浮点运算(FLOPs)。

定性结果。图5展示了作者方法与其他方法在LEVIR-CD和WHU-CD数据集上的视觉对比。所提出的方法巧妙地保留了变化信息的完整性,同时通过有效提取大面积和小面积变化信息保持了边缘细节。与先前方法相比,所提出的方法显示出能够实现相对更全面检测结果的能力。

Ablation Studies

在本节中,作者在LEVIR-CD验证集上开展了一系列消融实验,以仔细检查在RCTNet(带RegNet)中提出组件的有效性。表3显示了与完整模型相比,各个单独组件的消融版本在性能上表现出不同程度下降。消融结果证明了作者提出模块的有效性。作者所引入的RCTNet无缝融合了来自不同 Backbone 网络阶段的特征,增强了多级特征图中的语义信息和细粒度细节。

IV Conclusion

作者提出的深度学习方法,RCTNet,通过减少大气变化、光照变化和物候期变化的不准确度,缓解了现有变化检测方法的局限性。这一显著成果是通过卷积神经网络和Transformer优势的协同组合实现的。

在多个不同数据集上的严格实验表明,RCTNet明显优于现有技术水平。它显示出显著的准确度提升,并在性能与计算成本之间取得了良好的平衡。

参考

[1].Relating CNN-Transformer Fusion Network for Change Detection.

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称



点击下方“阅读原文”,
了解更多AI学习路上的「武功秘籍」

浏览 91
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报