OrientedFormer: 基于 Transformer的定向目标检测新框架 !

共 52781字,需浏览 106分钟

 ·

2024-11-27 09:00

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群




想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF

行业技术方案👉AI安防、AI医疗、AI自动驾驶
AI模型部署落地实战👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「集智书童-知识星球」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

由于遥感图像中的目标具有多方向分布,定向目标检测是一个具有挑战性的任务。最近,与传统卷积神经网络(CNN)方法相比,端到端 Transformer 基方法通过消除后处理操作器的需求而取得了成功。

然而,直接将 Transformer 扩展到定向目标检测存在三个主要问题:

1)目标可以任意旋转,需要编码角度、位置和大小;

2)定向物体的几何关系在自注意力中缺乏,因为内容与位置 Query 之间没有交互;

3)定向物体导致值与位置 Query 之间的错位,主要在交叉注意力中,这使得准确分类和定位变得困难。

在本论文中,作者提出了一种端到端 Transformer 基定向目标检测器,包括三个专用模块来解决这些问题。

首先,作者提出了一种高斯位置编码,使用高斯分布来编码定向框的角度、位置和大小。其次,作者提出了一种瓦瑟斯坦自注意力,通过利用高斯瓦瑟斯坦距离评分来引入几何关系并促进内容与位置 Query 之间的交互。最后,作者提出了一种定向交叉注意力,通过根据其角度以位置 Query 为中心旋转采样点来对值和位置 Query 进行对齐。

在六个数据集(DIOR-R,一系列DOTA,HRSC2016和ICDAR2015)上的实验表明,作者方法的有效性。与先前的端到端检测器相比,OrientedFormer在DIOR-R和DOTA-v1.0上分别获得了1.16和1.21 AP50,同时将训练周期从3倍减少到1倍。

代码可从https://github.com/wokaikaixinxin/OrientedFormer获取。

I Introduction

定向目标检测是计算机视觉和遥感的交叉领域中的基本任务,其目的是通过一组定向框定位物体并对其进行分类。在定向目标检测中使用的遥感图像是由卫星或其他航空平台在地球表面捕捉到的目标物体的照片。由于物体具有多种方向、密集排列和不同尺度,定向目标检测仍然具有挑战性,如图1(a)所示。这些定向物体的特性使得准确定位和分类目标物体变得困难。

为了准确检测物体,基于卷积神经网络(CNNs)的定向目标检测方法[1, 2, 3]取得了显著的进展。其中大多数是两阶段[4, 5, 6]或一阶段[7, 8, 9]的检测器。两阶段方法在第一阶段使用区域 Proposal 算法选择前景 Proposal 框,并在第二阶段优化这些 Proposal 。例如,RoI Transformer学习将水平 Anchor 点转换为定向 Anchor 点,但水平 Anchor 点经常与实例特征对齐不准确。为了解决这个问题,RRPN使用旋转区域 Proposal 网络生成大量的定向 Proposal 。定向R-CNN在定向区域 Proposal 网络中引入了中点偏移表示。同时,一阶段检测器直接预测 Anchor 框的位置和类别,以避免复杂的 Proposal 生成。例如,R3Det直接获取定向 Proposal ,并通过优化模块进行对齐。然而,上述基于CNN的方法依赖于一对一的标签分配策略,需要复杂的自定义后处理操作,如非极大值抑制(NMS)。

DETR [10] 首先将 Transformer  [11] 应用于水平目标检测,一系列相关的工作 [12, 13] 已经取得了令人瞩目的性能。受到他们的启发,一些检测器将 Transformer 应用于定向目标检测,通常遵循编码器-解码器架构。与采用密集先验(例如,框和点)的方法相比,基于 Transformer 的检测方法使用一组 Query (例如,内容和位置 Query )来表示物体实例,这些实例通常按层逐步更新。 Transformer 的架构主要由三个模块组成:位置编码、自注意力、交叉注意力。位置编码用于学习输入 Token 的序列顺序。自注意力处理 Query 之间的配对交互并删除重复预测。交叉注意力促进值和 Query 之间的交互,使模型能够关注相关的区域。此外,基于 Transformer 的检测器得益于一对一的标签分配和端到端框架,这消除了需要复杂的手设计过程的需要。

然而,将 Transformer 框架扩展到定向目标检测面临三个主要问题需要克服。

(1) 物体可以任意旋转,需要编码角度,除了位置和大小之外。角度用于描述定向物体,这使它们与水平 Box 区分开来。角度、位置和大小都是表示定向物体的必要条件。目前的基于 Transformer 的方法[14]仅使用常规位置编码来编码位置和大小,而忽略了角度。此外,作者注意到角度θ、位置(x,y)和大小(w,h)的物理含义和数据范围不同。如果没有归一化,坐标和大小的值范围受图像大小的限制,而角度以弧度为单位,在定向 Box 的旋转范围内从[-\pi/2,\pi/2]。因此,常规位置编码不适合定向物体。

(2) 定向物体的几何关系在自注意力中缺乏。

(3) 定向物体导致值和位置 Query 之间的错位。物体可以任意旋转,而多尺度图像特征具有金字塔结构。这通常导致在交叉注意力中值和位置 Query 之间的错位,值来自图像特征,位置 Query 表示定向物体的 Box 。这使得准确分类和定位目标物体变得困难。

在本文中,作者旨在解决基于Transformer的定向目标检测中的上述问题。作者提出一个端到端的基于Transformer的定向目标检测框架,称为OrientedFormer。作者的检测器配备了三个专用模块:高斯位置编码(PE)、瓦塞尔自注意力(Wasserstein self-attention)和定向交叉注意力(oriented cross-attention)。

首先,针对编码角度的问题,作者构建了一个基于高斯分布从定向框转换而来的高斯位置编码(PE)。它将角度、位置和大小统一为同一度量,并有效地编码了框的角度。

其次,针对缺乏几何关系的问题,瓦塞尔自注意力使得内容 Query 和位置 Query 能够相互交互。几何关系信息通过高斯瓦塞尔距离分数来衡量,并由所有位置 Query 提供。

第三,针对对齐问题,定向交叉注意力对值和位置 Query 进行对齐。它根据角度将稀疏采样点围绕位置 Query 旋转。焦点区域分布在定向框内和外,提供了广泛的上下文信息,如图1b所示。

最后,作者在各种定向目标检测数据集(如遥感图像)上进行了大量实验。所有实验结果一致地证明了OrientedFormer在提高准确率方面的有效性。此外,作者通过在场景文本检测研究中验证了作者的方法的一般化。

总的来说,作者方法的主要贡献可以概括为四个方面:

高斯位置编码被提出,用于编码定向 Box 的角度,除了位置和大小。它建立在高斯分布上,将角度、位置和大小统一到一个度量中。

瓦塞尔自注意力机制被提出,以引入几何关系到自注意力中。该模块利用高斯瓦塞尔距离分数来衡量两个不同内容 Query 之间的几何关系。

为了解决对齐问题,提出了定向交叉注意力机制,通过绕位置 Query 旋转一小部分采样点,实现值和对位置 Query 的对齐。

广泛的实验表明作者的方法的有效性。使用ResNet50作为 Backbone 网络,OrientedFormer在DIOR-R上的AP50达到了67.28%,在DOTA-v2.0上的AP50达到了54.27%,分别建立了新的最先进基准。

II Related Work

Oriented Object Detection in Remote Sensing

Ii-A1 Convolution neural network (CNN) methods

已经取得了显著的性能提升。现有的基于CNN的定向目标检测器主要分为一阶段和二阶段方法。一阶段检测器预测 Anchor 框的位置和类别,这些 Anchor 框密集覆盖图像特征图,如R3Det [15],S -Net [16]和PSC [17]。 Anchor-Free 框方法[9, 18]通过用先验点替换手工制作的 Anchor 框框简化了一阶段流程。一阶段方法依赖密集候选,每个候选直接由分类和回归损失监督。在训练中,使用基于预定义原则的一对多分配策略,如候选框和真实框之间的IoU超过阈值。

二阶段方法从第一阶段的密集区域候选中选择前景 proposal 框,并在第二阶段定位和分类这些 proposal 框。第一阶段使用区域 proposal 算法学习粗略的 proposal 框,如Oriented R-CNN [4]和ReDet [5]中的区域 proposal 网络。二阶段方法需要相似的标签分配策略。在推理时,一阶段和二阶段方法都需要一些后处理操作,例如 NMS 用于移除非预测结果。

Ii-A2 End-to-end Transformer-based methods

这些方法在水平目标检测[10, 12]中得到了广泛应用,它们可以直接输出结果,无需手工制作的组件。一些研究行人[19]将它们扩展到定向目标检测。AO2-DETR [14]引入了一个定向框生成和精炼模块,用于准确定向位置先验,这基于Deformable DETR [12]。ARS-DETR [20]在以前工作的基础上提出了一种旋转变形注意力,其中采样点基于角度进行旋转,以进行特征对齐。此外,某些方法专注于改进物体 Query 。PSD-SQ [21]将物体 Query 表示为点集,而不是定向框,以实现准确的实例特征采样。

D Q-DETR [22]设计了一种动态 Query ,逐渐减少堆叠解码层中的物体 Query 数量,以更好地平衡模型精度和效率。此外,一些研究关注于增强一对一标签分配。EMO2-DETR [23]观察并解决了一对一标签分配导致物体 Query 相对冗余的问题,因为物体在图像中分布不均。与现有方法不同,为了有效编码定向框,测量内容 Query 之间的几何关系,并调整值和位置 Query ,作者提出了拟合高斯PE,Wasserstein自注意力,和定向交叉注意力。

Attention in Transformer-based Object Detection

Ii-B1 Self-attention

目标 Query 被输入到自注意力机制中,并与彼此相互作用以消除重复预测[10]。大多数基于 Transformer 的检测器采用DETR[10]中的普通自注意力。

在普通自注意力中,只使用内容 Query ,而位置 Query 提供的几何关系被丢失。因此,普通自注意力没有考虑到内容 Query 之间的几何关系。

与这种方法不同,作者在自注意力中引入高斯韦伯距离分数来衡量不同内容 Query 之间的几何关系。

Ii-B2 Cross-attention

在交叉注意力中,图像特征作为值与 Query 进行交互。DETR [10] 中的基础交叉注意力只采用单个特征图,效率较低。为了加速收敛速度,Deformable DETR [12] 提出的变形注意力关注于参考周围的一小部分采样点。对应这些点的特征学习分类和回归。但是,在监督角度的情况下,采样点学习位于特殊位置 [14],例如角落和轴线上的 Box ,这可能不是最优的。Anchor DETR [24] 将注意力解耦为行和列注意力并逐个处理。图像特征的行和列序列缺乏方向和空间信息。

SMCA [25] 提出了一种空间调制的共注意力,通过限制注意力响应在初始估计的边界框位置附近变得高。Dynamic DETR [26] 设计了基于RoI(Region of Interesting)的动态注意力,灵感来自动态卷积 [27],以帮助 Transformer 关注感兴趣的区域。上述方法在面临定向 Box 时会导致错位。与他们不同,作者的定向交叉注意力通过围绕位置 Query 旋转一小部分采样点来对齐值和位置性 Query 。

Positional Encoding

位编码对 Transformer 捕捉输入 Token 的序列顺序至关重要。它首先在 Transformer [11]中应用,用于自然语言处理中注入 Token 在序列中的相对或绝对[11]位置的信息。由于 Transformer 没有卷积,它需要位编码来学习 Token 的序列顺序。

上述方法是为一维单词序列语言模型设计的,而除此之外,位编码在计算机视觉领域得到广泛应用。在目标检测中,DETR [10] 使用了可学习的位编码。DAB DETR [28] 将框的中心坐标(x,y)和大小(w,h)分别映射到四个向量,并将它们作为最终嵌入。

两阶段的变形 DETR [12] 先生成区域 Proposal ,然后通过正弦绝对位置编码进行编码。上述方法只编码水平框。而作者的建议高斯位编码是基于高斯分布构建的,它是由定向框转换而来。它可以编码定向框的角度、位置和大小。

Nomenclature

为了在随后的讨论中提高清晰度,作者在此列出所使用符号及其对应的描述,并汇总在表1中。

III Method

在本文中,作者提出了一种基于远程感测图像的端到端 Transformer 基础的定向目标检测器,称为OrientedFormer。在此部分,作者首先在III-A部分介绍了整体架构,然后分别在III-B部分解释了目标 Query ,III-C部分说明了高斯位置编码,III-D部分介绍了瓦舍尔自注意力,III-E部分介绍了定向交叉注意力,最后在III-F部分介绍了标签分配和损失。

Overall Architecture

总的来说,作者的OrientedFormer架构由 Backbone 网络和解码器组成,遵循端到端 Transformer 范式,如图2所示。编码器未使用, Query 通过增强方法[29]初始化。多尺度图像特征 由 Backbone 网络[30]提取,并通过通道映射器[12]在同一通道中转换,其中 分别表示单级特征和不同尺度。单级特征 具有通道 (默认为256),高度 和宽度 。相邻特征之间的下采样步长通常为2。多尺度特征和物体 Query 是解码器的输入。

遵循[10, 12],作者在解码器中依次使用作者提出的自注意力、交叉注意力和前馈反馈网络(FFN)。在自注意力中,物体 Query 相互交互,而在交叉注意力中,采样特征作为值进一步与 Query 交互。通过FFN,生成更新后的 Query 和检测结果。在训练过程中,预测由分类和回归损失监督。

Object Queries

物体 Query 是解码器用于表示物体实例的输入之一。内容 Query   和位置 Query   分别用于学习物体之间的上下文信息以及物体的位置,其中 表示物体 Query 的数量, (默认为 256)表示通道维度。这两种 Query 方式可以分离物体的分类和定位。

Gaussian positional encoding

现代的PE仅用于水平 Box ,且不准确地编码定向物体的角度。为了解决这一限制,作者提出了高斯PE,它可以均匀地编码角度、位置和大小。

_1) 卷积神经网络(CNN)的初步:在解码器中,位置编码将位置 Query 转换为正弦嵌入,然后与位置编码一起训练内容 Query 。

首先,作者回顾一下目标检测中的现代位置编码。在许多常见的水平目标检测器[12, 13]中,将位置编码应用于 Query 可以表示为:


这是对水平箱子 的每个维度的正弦和余弦值进行拼接,这些值均经过 的缩放处理,其中 分别表示温度、超参数和维度。

  1. 高斯分布的定向箱子:为了将角度、位置和大小统一到一个度量标准中,作者将一个定向箱子转换成高斯分布

是二维旋转矩阵, 是特征值构成的对角矩阵。

  1. 高斯位置编码(Gaussian PE):所提出的Gaussian PE是按照上述高斯分布的定向 Box 的期望。在方程(1)中的原位置编码可以重写为:


在编码向量的上下标2i和2i+1中,分别表示向量的索引。这种重参化使得可以得到高斯位置编码的封闭形式。

根据这两个数学事实,随机变量线性变换的期望是随机变量期望的线性变换,随机变量线性变换的方差是方差和系数的平方乘积。根据这些属性,作者可以计算在位置编码后提升的定向方盒的高斯分布的平均值和协方差:


作者的高斯配分增强(Gaussian PE)的最后一步是计算方程(4)中的提升多变量高斯分布的期望值,该分布由正弦和余弦函数调节。还有一个数学事实,如果 在均值 和方差 的高斯分布中分布,那么期望值 分别为[31]:

作者可以看到,数学期望 分别是平均 通过方差 衰减的 。利用这一特性,作者计算提出的Gaussian PE如下:

其中, 表示手臂乘积。由于位置编码独立地编码了 Box   的每个维度,高斯位置编码仅取决于 的边缘分布。因此,只需要 的对角线部分:


这些对角线可以从等式(2)中由定向 Box 的高斯分布的方差 轻松获得。

Multi-head Wasserstein Self-attention in Decoder

纯多头自注意力[10]在内容 Query 之间使用的自注意力机制没有考虑几何关系信息。为了解决这个问题,作者提出了Wasserstein自注意力,它将几何关系引入自注意力机制,并能够有效地抑制冗余检测[10]。

Iii-D1 Wasserstein Self-attention

作者将高斯瓦塞尔距离分数引入到自注意力中。它可以测量两个不同 Query 之间的几何关系,并帮助自注意力关注重要区域,这是瓦塞尔自注意力与其他普通自注意力的主要区别。

给定方程(2)中的任意两个位置 Query   ,它们具有高斯分布 ,瓦塞尔距离的计算如下:


其中 表示两个位置性 Query 的两个高斯分布。距离仅满足 。因此作者进一步重新缩放它,并最终得到高斯瓦瑟斯坦距离分数:


,且 时, 表示位置 Query 重合, 表示两个位置 Query 距离很远。所提出的多头Wasserstein自注意力将高斯位置编码和Wasserstein距离分数相结合:


Iii-D2 Complexity of Wasserstein Self-attention

Wasserstein自注意力机制的复杂度为 ,与[10, 20]中的其他方法在同一数量级。高斯Wasserstein距离分数和高斯PE并未增加额外的计算负担。

Multi-head oriented cross-attention in Decoder

作者提出了一种定向交叉注意力机制来解决对齐问题,如图5所示。定向交叉注意力的输入包含多尺度图像特征{fl}l=1到L,内容 Query 和位置 Query ,其中 分别表示单层特征和不同尺度。定向交叉注意力可以从三个角度进行分析:

(1)位置 Query 被转换为另一种类型 ,提供虚拟3D坐标;

(2)从图像特征中采样值,并按照角度进行对齐;

(3)提出的交叉注意力可以分解为三个不同的注意力机制,每个机制关注不同的视角:尺度感知注意力、空间感知注意力和通道感知注意力。

取向交叉注意力与变形注意力之间的差异如下:

(1)作者的注意力根据角度旋转采样点进行对齐,而变形注意力不这样做;

(2)作者的注意力关注三个视角:可伸缩感知、空间感知和通道感知,而变形注意力只强调通道感知;

(3)作者的注意力使用可学习的位置 Query ,而变形注意力使用一套固定的网格作为参考点;

(4)在作者的注意力中,采样点在虚拟3D特征空间中分布,而在变形注意力中,它们被限制在2D平面上。

Iii-B1 Coordinates of positional queries

作者将位置 Query 转换为另一种类型 ,其中 表示中心点的坐标, 分别表示缩放比例和宽高比的以对数为单位的值, 表示角度。 与常见的 5 参数表示 的唯一区别在于 ,转换如下:


其中 分别表示定向 Box 的宽度和高度。其目的是使 在虚拟三维特征空间中代表3D坐标。利用这一点,可以轻松实现尺度、空间和通道注意力。

Iii-B2 Calculation of values and feature alignment

作者将特征作为值进行采样。采样点可以从位置 Query   的中心 的偏移量中得到。偏移量 的计算如下:


这些偏移量被转换为取样点:


与其他流行的交叉注意力一样,作者也引入了多个 Head 的定向交叉注意力。因此,位置 Query 周围采样点的数量为 ,其中 分别表示头数量和采样点数量。

由于远程感测图像中的物体是定向的,作者需要根据角度θ对采样点进行对齐:


不参与旋转,因为只有定向的方块在2D平面上旋转。作者的任务是2D定向目标检测,其他3D任务可以获取真实深度信息,但作者的任务无法获得这样的信息。

因此,作者需要重新缩放采样点以适应不同特征 Level 。 参数不直接参与特征采样,但将在尺度感知的注意力中转换为注意力权重,下面会详细说明。给定对齐的采样点 ,作者首先重新缩放它们,然后在每个特征 Level   中使用双线性插值采样值


其中 表示每个特征 Level 的降采样步长, 。对齐的采样点并不严格限制在框上。现在 的形状为 ,因为使用了多头机制,位置 Query 周围的数量为

Iii-B3 Scale-aware attention

作者提出了具有尺度的注意力,它动态地融合不同尺度的特征:


其中, 表示每个特征 Level 的下采样步长,且 是不同尺度的权重软化系数,作者在工作中保持 。作者将尺度感知的注意力输出表示为 ,其形状为 ,并在通道感知的注意力中持续使用。

Iii-D4 Channel-aware attention

为了关注通道维度,作者引入了通道感知注意力。给定尺度感知注意力的输出 和内容 Query ,通道感知注意力的计算如下:


首先,根据题目要求,作者需要将英文AI学术论文翻译成简体中文。以下是我对这段英文的理解和翻译:

分别表示线性运算和 ReLU 运算符。通道的权重通过线性运算和 ReLU 运算符从内容 Query 得到,并且具有形状 。作者用 表示通道感知的注意力输出。 的形状为 ,并在空间感知注意力中持续使用。

请注意,由于英文原文中可能存在一些不准确或模糊的表述,翻译结果可能不是完全准确的。在需要时,请务必参考原文以获得更准确的信息。

Iii-D5 Spatial-aware attention

为了关注空间维度,作者引入了空间感知注意力。给定通道感知注意力的输出 和内容 Query   ,空间感知注意力的计算如下:


是线性算子。空间权重也是通过线性算子和 ReLU 算子从内容 Query 中变换而来,其形状为 。空间感知注意力输出的形状为 。通过线性层将输出进一步扁平并转换为 ,作为定向交叉注意力到内容 Query 的最终输出。

Label Assignment and Loss

在定向目标检测任务中,有两个子任务,分别是分类物体类别和回归物体位置。在标签分配阶段,使用了一对一匈牙利匹配[14]。损失包括分类损失Focal损失[19],回归损失L1损失[18]和旋转IoU损失[18]。


在所有解码层的检测结果上应用的损失系数分别为: , 。这些损失用于训练所有解码层的检测结果。

IV Experiment

Datasets

作者在6个常见数据集上进行实验。_DIOR-R_[13]是一个大规模的面向目标的检测数据集,用于遥感图像。它包括23,463张图像和192,512个实例,这些实例属于20个常见类别。作者在训练集和验证集上训练模型,并在测试集上进行测试。DOTA 系列[12]是用于遥感图像的面向目标的检测数据集。它们包括DOTA-v1.0[12]/ v1.5 / v2.0[11],这些数据集在图像、实例和类别数量上有所不同。图像大小从800 800到4,000 4,000像素,覆盖各种场景和物体。 DOTA-v1.0 的类别有15个,包含2,806张图像和188,282个实例。

DOTA-v1.5 使用与_DOTA-v1.0相同的图像,但添加了更多的小实例,总实例数为403,318。 DOTA-v2.0 包含11,268张图像和1,793,658个实例。作者在这些数据集的训练集和验证集上训练模型,并在测试集上进行测试。作者将测试结果提交给DOTA的官方评估服务器,以获得检测性能。HRSC2016 [17]是一个用于遥感图像船只检测的具有挑战性的数据集,包括1,061张图像。该数据集分为两个集:训练集和测试集,分别包含617张和444张图像。作者在测试集上使用两个指标PASCAL VOC07和VOC12评估模型。ICDAR2015 [18]用于文本检测,包括1,000张训练图像和500张测试图像。

Implementation Details and Evaluation Metrics

1) 实现细节: 作者在两台NVIDIA RTX 2080ti上进行所有实验,每个GPU的批次大小为4(2张图像)。模型基于MMRotate [16]构建,使用PyTorch。ResNet [19],Swin [15]和LSK [14]作为在ImageNet [17]上的预训练后端。作者使用AdamW优化器 [18]进行优化,学习率设置为 。损失的权重分别为5.0,2.0和2.0,对应Rotated IoU损失 [18],Focal loss [19]和L1损失 [14]。数据增强策略仅包含随机翻转。实验的详细信息显示在表2和算法1中。

在DOTA-v1.0/1.5/2.0上的实验中,图像被裁剪成重叠区域为200的 的 Patch ,并进行12个周期的训练。在第8和11个周期时,学习率被除以10。此外,在DOTA-v1.0的多尺度训练中,图像首先被重置为三个尺度(0.5,1.0和1.5),然后在进行单尺度训练后裁剪。在Dior-R实验中,图像训练了12个周期,固定尺寸为800 800。在HRSC2016实验中,作者将图像缩放到(512,800)的范围内,并进行了24个周期的训练。在ICDAR2015上的图像训练了24个周期,固定尺寸为800 800。

评估指标:AP_{50},AP_{75}和AP_{50:95}衡量了方法的精确度。作者还分析了不同方法的精确度、召回率、F-measure、PASCAL VOC 07和12指标。FPS是评估推理速度的指标。Params和FLOPs分别用于计算模型的参数和复杂性。Epochs用于衡量模型训练时间。

Comparisons With State-of-the-Arts

  1. 在 DIOR-R 上的结果:作者将 OrientedFormer 与现代的 CNN 基础和 transformer 基础检测器进行比较。DIOR-R [35] 上每个类别详细的比较结果报告在表3 和图6、7 中。比较方法的结果来自其论文。作者的方法在 LSK-T 上达到 65.07% AP ,在 ResNet50 上达到 67.28% AP ,在 Swin-T 上达到 68.84% AP ,超越了所有比较的 CNN 基础单阶段和两阶段检测器以及 transformer 基础检测器。
  1. 在DOTA-v1.0上的结果:作者在表4中报告了在DOTA-v1.0上的结果,与当前基于CNN的检测器和基于Transformer的检测器进行了比较。比较方法的结果来自其论文。在通过AP 衡量的准确性方面,OrientedFormer在ResNet50上达到了75.37%,在Swin-T上达到了75.88%,在ResNet101上达到了75.92%的单尺度数据,此外,在多尺度数据上,它还达到了79.06%的AP

Iv-B3 Results on DOTA-v1.5

表5展示了作者的方法与其他现代检测器之间的比较,使用了它们论文中的结果。使用ResNet50 Backbone 网络,作者的方法在单尺度数据上实现了67.06% AP 。DOTA-v1.5中包含许多小目标实例,例如小汽车(SV)、船舶(SH)和游泳池(SP)。对于这些实例,作者的方法表现更好。

Iv-B4 Results on ICDAR2015

作者在ICDAR2015[39]上进行了实验,结果如表6所示。作者使用与作者的方法相同的设置,重新实现了比较方法,使用MMRotate实现。作者的OrientedFormer在精度、召回率和F-measure方面分别达到了85.3%、74.2%和79.4%。

Iv-B5 Results on HRSC2016

HRSC2016 仅包含船只。表7 显示了作者的方法以及其他论文中物检测器的结果。作者的定向 FFN 在 ResNet50 模型下,在 VOC07 和 VOC12 指标下分别实现了 90.17% 和 96.48% 的 AP ,与现代检测器相竞争。

Iv-C6 Results on DOTA-v2.0

如图表8所示,作者提出的OrientedFormer与基于CNN的一阶段和两阶段检测器进行了比较,采用了它们论文中报告的结果。为了进行公平的比较,所有模型的backbone都是ResNet50。作者的方法在单尺度数据上在DOTA-v2.0基准测试中实现了最先进的性能,AP50为54.27%。作者的方法超过了所有比较的基于CNN的检测器。

Ablation Study

  1. 物体 Query 数量:在本实验中,作者评估了物体 Query 数量的影响,如表9(a)所示。随着物体 Query 数量的增加,性能显著提高。当物体 Query 数量为100时,AP 仅为65.16%,但当物体 Query 数量增加到300时,它上升到67.28%(提高了2.12%)。这表明足够的物体 Query 数量可以有效地覆盖图像中的物体。
  1. 在定向交叉注意力中使用的采样点数量:在本次消融研究中,作者使用不同的采样点数量,如表9(b)所示。使用大量采样点的原因是,这些采样点所获取的特征负责物体的分类和回归,而空间感知注意力主要关注这些特征。当作者从4个采样点增加到32个采样点时,AP 从65.60%增长到67.28%。这表明,丰富的特征有助于促进空间感知注意力和整个解码器。

  2. 面向定向交叉注意力中的注意力头数量:在本实验中,作者使用了不同的注意力头数量,如表9(c)所示。使用多个头的原因是不同的头可以在 Query 和值之间建立不同的关联。随着头数从8增加到64,AP 从66.33%增长到67.28%。这表明注意力头可以提供多个子空间进行表示,并扩展了关注特征不同部分的 ability。

Comparisons of different Positional Encodings

作者进行了不同PE的消融实验,结果如表10所示。可学习的PE [10]、遵循变形DETR [12]的正弦绝对PE以及DAB DETR [28]进行了比较。这些PE仅编码定向框的大小和位置,但缺乏角度信息。由于缺乏序列顺序信息,模型在没有任何PE的情况下达到了66.85%。当使用变形DETR和DAB DETR以及可学习的PE时,AP 有所降低。作者认为这些PE对于位置 Query 不匹配。作者的高斯PE可以带来性能提升。

Comparisons of different Self-Attention

在表12中,作者将Wasserstein自注意力与其他现代自注意力进行比较。当应用普通的Self-Attention[10, 12]时,模型仅实现了AP50为67.03%。

作者用前景交集(IoF)和交集与并集(IoU)方法替换高斯韦伯距离得分进行比较。与IoF和IoU方法相比,作者提出的韦伯自注意力取得了最佳性能,分别实现了0.71%和0.2%的改进。

Effects of proposed Individual Strategy

在本研究中,作者评估了作者在方法中提出的每种策略的有效性,包括高斯位置编码(PE)、瓦斯退位自注意力(Wasserstein self-attention)和定向自注意力,如表11和XIII所示。逐步地将每种单个策略整合进来,它们都提高了性能。

Convergence and Training Epochs

DETR [10] 存在收敛速度慢和训练时间长的问题。为了进一步研究收敛性,作者将OrientedFormer与其他端到端模型进行比较,如图8所示。为了进行公平的比较,所有方法都在12个epoch内,在DIOR-R上训练,每次300个 Query 。OrientedFormer 在ResNet50上仅用12个epoch就实现了AP 67.3%,超过了Deformable DETR-O with CSL(31.2%)和ARS-DETR(38.9%)。

作者将OrientedFormer与其他端到端模型在准确率和训练周期上进行比较,如图9所示。在12个训练周期内,训练OrientedFormer可以超越ARS-DETR和Deformable DETR-O,它们分别需要36个训练周期。具体来说,OrientedFormer在ResNet50上的AP50为75.37%,而ARS-DETR为74.16%,Deformable DETR-O为69.48%,在36个训练周期内。

Comparison of Speed, Parameters, FLOPs and Accuracy

为了进一步探索OrientedFormer的性能,作者在DOTA-v1.0上与其他方法(包括基于卷积神经网络的两阶段方法以及大多数一阶段方法)进行了比较实验,结果如表14所示。OrientedFormer在速度上超过了基于卷积神经网络的两阶段方法和其他端到端方法,但略逊于大多数一阶段方法。此外,与其他端到端方法相比,OrientedFormer的参数数量略有增加。

Comparison of Different Feature Layers of Backbone

Backbone 网络从图像中提取特征,在定向目标检测中起着重要作用。作者在不同的 Backbone 网络特征层数量(如表5)上进行了实验。随着 Backbone 网络特征层数量的增加,模型的AP、参数和FLOPs逐渐增加。由于多尺度特征可以捕捉图像中的丰富信息,因此作者选择了4层特征。

Comparison of Different Sampling Methods

学习可更新的采样点 通过对位置 Query 的中心点旋转角度进行对齐,在作者的定向交叉注意力中进行对比。作者将作者的方法与不同的采样策略进行比较,如表16 所示。固定偏移方法利用位置 Query 中心点周围的固定采样点。变形偏移方法不旋转采样点,这是作者方法的主要区别。随机偏移方法在位置 Query 中心点周围使用随机采样点。作者在图11 中可视化了不同方法的学习点。作者的定向交叉注意力可以更有效地对齐特征,从而关注更准确的目标特征。

Visualization

Iv-L1 Comparison with other methods

作者将作者的方法与其他方法在大规模物体、密集堆叠物体、复杂背景图像和低光照条件下进行比较,如图10所示。其他方法在准确检测大型物体方面存在困难,通常会错过密集堆叠物体,将背景噪声误认为是物体,而在恶劣的环境条件下表现不佳。

Iv-L2 Learnable positional queries

位姿 Query 用于表示物体的位置。作者在图12中显示了学习得到的位姿 Query 的中心点。实验中使用了默认的300个位姿 Query 。位姿 Query 位于物体的中心点和疑似物体的中心点。这展示了位姿 Query 在表示物体位置方面的实用性。

Iv-L3 Learnable sampling points

为了更好地理解学习导向的交叉注意力,作者在图13中可视化了位置 Query 的中心和解码器中的采样点。为了提高可读性,所有采样点都缩放到了原始图像。从采样点采样到的特征充当交叉注意力的值。采样点与定向框对齐。大多数采样点都分布在定向框内,而其他则位于框外。

Iv-L4 Detection results

作者在不同的数据集上可视化了检测结果。图14展示了在DOTA、DIOR-R和HRSC2016上的检测结果。定向框准确地定位图像中的目标。值得注意的是,DOTA数据集包含许多描绘极端天气和恶劣照明条件的图像。然而,在作者的方法下,在这些情况下仍具有有效性。

Iv-L5 Suboptimal results

作者在图15中展示了某些次优的结果。在定向遥感的图像中,有许多大小较小但 aspect ratio 巨大的目标物体。此外,一些前景目标与背景相似。这些挑战需要在未来的研究中进一步探讨。

V Conclusions

在本文中,作者提出了一种端到端 Transformer 基础检测器OrientedFormer,用于远程感测图像中的定向目标检测。所提出的OrientedFormer包括高斯位置编码、Wasserstein自注意力以及定向交叉注意力。

这些专门的部分共同工作,以准确分类和定位远程感测图像中具有多个方向的物体。首先,引入高斯位置编码,编码不仅物体的位置和大小,还编码定向框的角度。

其次,提出Wasserstein自注意力,将内容 Query 之间的几何关系集成到自注意力机制中。最后,设计定向交叉注意力,通过根据物体角度旋转采样点来解决对齐问题。

在六个数据集上的大量实验表明了作者的方法的有效性。作者验证了基于 Transformer 的检测器可以与基于CNN的一阶段和两阶段检测器具有竞争力。

与先前的端到端检测器相比,OrientedFormer在DIOR-R和DOTA-v1.0上的性能分别提高了1.16和1.21 AP50,同时将训练周期从3倍减少到1倍。

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称



点击下方“阅读原文”,
了解更多AI学习路上的「武功秘籍」


浏览 54
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报