CVPR2021| 行人搜索中的第一个anchor-free模型-技术圈

Introduction

行人重识别的方法分为两个类别，一类是基于two-step的方法，如图a所示，先使用现成的模型进行行人检测，将其裁剪出来，再放进re-id网络识别。这种方法可以获得比较好的效果，但对时间和资源消耗比较大。第二类是基于one-step的方法，如图b所示，使用一种端到端的方式检测并识别。

如图b所示，这种一步到位的方式在检测出行人后，将检测框内的feature通过ROI Align得到相同大小feature maps, 再进行回归，分类，re-id损失值的计算。这种方式类似于目标检测的two-stages的方法，我们称之为one-step two-stage模型。

这种one-step two-stage模型不可避免的与目标检测的two-stages模型一样，也有一些内在缺陷，例如密集anchors带来的高计算量，对大小、比例和anchor数量这些超参数的高敏感性。

最近几年，基于anchor-free的模型展现了独有的优点，即更简单的结构和更快的速度。基于这一点，作者提出要在Re-ID中构建一个anchor free模型。

但这会存在以下三个不对齐的问题：

1) 许多anchor-free模型通过FPN的方式学习多尺度特征以实现目标检测的尺度不变性。但在Re-ID上会存在尺度不对齐的问题，这是因为在gallery set中会存在各种尺度的人。

2) 没有了ROI-Align操作，anchor-free模型无法根据指定区域将re-id和检测联系起来。因此，必须直接从特征图中学习re-id embedding，而无需显式的区域对齐。

3) 行人搜索可以直观地认为是一个把检测和Re-ID作为自认为的多任务学习框架，因此需要找到这两个任务的平衡。

在这篇论文中提出了第一个用于行人搜索的anchor-free模型，称之为Feature Aligned Person Search Network (AlignPS)，AlignPS遵循Re-ID优先的原则提出了aligned feature aggregation (AFA) module，用于处理上面这三个问题。

AFA通过可变形卷积重塑了FPN的一些构造块，通过特征融合解决了在Re-ID特征学习中区域和尺度不对齐的问题。同时优化了Re-ID和检测在训练过程中的步骤，更注重生成更鲁棒的Re-ID embeddings。这些简单有效的设计成功的将一个经典的anchor-free模型变成了一个很强很有效率的行人搜索框架，超过了anchor-based模型。

Feature Aligned Person Search Network

AlignPS的基础框架是FCOS，FCOS是目标检测中最常用的one-stage anchor-free框架之一。

前面提到，AlignPS是基于Re-ID优先的原则，为了学习Re-ID embedding，直接使用AFA输出的feature maps进行flatten，没有使用额外的embedding layers。

对于检测，使用了FCOS中的检测头。检测头分成两个分支，两条分支都由四个3x3卷积层组成，第一个分支预测回归偏移和中心得分，第二个对前景背景进行分类。最后，AFA输出feature maps的每个位置都会与一个含有分类、中心得分以及Re-ID embedding的Bounding boxes联系起来。

Aligned Feature Aggregation

Scale Alignment--FCOS采用在不同层检测不同大小的目标，对于一些重叠的有歧义的目标很有可能会分到不同的层，因此可以很好的提升检测效果。然而这对于Re-ID来说这并不好，因为Re-ID需要与gallery set进行比较，在不同的尺度下检测将会出现尺度不对齐的问题。

本文的解决办法是只使用P3层的信息，这样就不存在尺度不对齐的问题，注意，可以这样做的原因是P3层基本融合了全部的语义信息。在上一篇论文分享《YOLOF: 特征金字塔的新方式》中提到，特征金字塔的最顶层基本融合了全部语义信息，进行多尺度融合对精度提升影响不大。

Region Alignment--前面提到没有ROI-Align操作会出现Region misalignment问题，AlignPS从三个方面处理这个问题。

第一，使用3x3可变形卷积来代替FPN中邻侧连接过程中的1x1卷积。3x3可变形卷积可以使网络自适应input feature maps的感受野，很好地完成Region Alignment。

第二，使用concatenation代替自顶向下路径中的求和操作，这可以整合多尺度特征。

第三，再次使用3x3可变形卷积代替FPN输出层的3x3卷积。这可以对其多尺度特征从而生成更精确的feature map。

Task Alignment--提出Re-ID优先是基于以下两点考虑。

第一，因为现有的一些检测框架有比较强的效果，以至于检测任务相比Re-ID更好处理，因此学习判别Re-ID embedding是首要关注的问题。经过作者们讨论，在anchor-free框架中，Re-ID的performance对Region misalignment更敏感。因此，倾向于Re-ID对于行人搜索是比较理想的。

第二，对比于检测优先和两者并重的结构，Re-ID优先的结构不需要额外的层去生成Re-ID embedding，从而更有效率。

Triplet-Aided Online Instance Matching Loss

目前典型的行人搜索方法大多采用Online Instance Matching（OIM）损失来监督ReID任务的训练过程。

具体而言，OIM将所有带标签个体的特征中心存储在一个查找表（Lookup Table，简称LUT）中，其中L代表特征个数、D代表特征维度。同时，维护一个循环队列（Circular Queue），其包含了Q个无标签个体的特征。在每次迭代过程中，给定标签为i的输入特征x，OIM分别将x与查找表和循环队列中的所有特征计算相似度，这样可得到x属于标签i的概率pi。

本文发现，尽管OIM能够有效地利用带标签和无标签样本，但还是具有下面两个局限性：1）相似度计算只局限在输入特征与查找表或循环队列之间，输入特征之间并没有任何相似度计算操作。2）对数似然损失并没有给出特征对之间的明确距离度量。