TCSVT2021：一种结合全局和局部细粒度特征的行人再识别方法-技术圈

↑ 点击蓝字关注极市平台

作者丨视界预言家

审稿丨邓富城

编辑丨极市平台

极市导读

本文提出了一种结合全局和局部细粒度特征的特征选择网络来实现对人的再识别。该模型通过弱化显著特征来挖掘更有价值的特征，并在消除干扰信息后获得多样化的细粒度特征。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文地址：
https://www.researchgate.net/publication/347764290_Feature_Refinement_and_Filter_Network_for_Person_Re-identification

1、摘要：

目前的深度模型往往注重于提取具有较强分辨力的特征，而忽略了其他有价值的特征。此外，提取的细粒度特征可能存在冗余，而且缺乏一种有效的消除背景干扰的方案。研究者提出特征加强和过滤网络并取得比较好的效果。

2、主要内容：

（1）通过弱化高响应区域的特征值，模型可以挖掘出图像中更有价值的区域，既保证了训练过程的稳定性，又学习到了行人的完整特征；

（2）在得到完整特征的基础上，进一步定位人的高响应特征，消除了背景信息的干扰，提高了特征的泛化能力；

（3）为了获取行人的局部细粒度特征，研究者设计了具有多样性损失的多分支注意网络，在去除背景干扰的特征上进行自适应筛选获取行人的局部细粒度特征。

3、问题的提出

行人往往具有相似的形状，再加上姿态、视角、光照、遮挡和复杂背景干扰等原因，行人再识别任务比普通的图片分类任务更加的困难。现有方法往往只关注图像中最具区分性的区域，而不是关注人的所有特征;重要的是，被忽视的部分往往也具价值。此外，研究发现深度学习模型识别图像时，有时会将注意力集中在与图像识别性能无关的图像背景上，这也在一定程度影响了模型的性能。

目前的研究侧重于局部细节特征的提取，将图片特征在垂直方向分割成均匀的N份，提取更加深层次的特征具有很好的效果。然而，如图1所示，一些局部特征不一定是有用的特征，即使是有用的特征，其重要性也是不同的。对人的识别没有影响的特征的联合提取和处理，无疑会影响模型的性能。与固定大小分区的局部特征提取相比，如何过滤区分区域和提取细节特征更有意义。

图1. 并不是人的照片中的所有特征都有利于行人的再识别。(a)遮挡，(b)复杂背景，(c)显著特征。人的不同特征对人的再识别有不同的贡献。(c)中红色框架的特征的重要性明显大于其他特征。

4、Feature Refinement and Filter Network方法流程

研究者主要从三个方面解决行人再识别问题。首先，通过弱化高响应区特征，模型可以关注更有用的特征，实现完整的行人特征的提取，增强模型的鲁棒性; 其次，在得到完整特征的基础上，进一步定位人的高响应特征，消除了背景信息的干扰，提高了特征的泛化能力;最后，通过多分支注意网络选择有价值的细粒度特征用于人的再识别，从而提高模型的性能。如图2所示，方法主要包括全局特征增强网络、多注意力网络和注意力多样性损失。

图2. Feature refinement and filter network方法框架

4.1、弱化显著性特征

研究者基于 Resnet 模块设计了弱化特征卷积模块, 如图 3 所示。一张图片经过卷积模块得到特征图其中分别表示特征图的高，宽和通道数。通过一个类型通道注意力将特征图的通道降为得到特征图操作过程如下:

式中, 表示按位相乘, sample 表示上采样操作。研究者通过减弱特征图 A 中高响应的区域，迫使网络关注到除高响应对应区域外的其他区域的特征，让模型能够很好的关注到输入图片中所有有用的特征，从而实现消除背景噪声等其他无用特征的干扰。具体地，设定一个间值特征图中的值超过这个间值的就算高响应区域。然后，引人一个弱化因子并规定弱化特征算子 M 如下:最后，将卷积模块的输入I与弱化特征算子M按位相乘得到经过弱化的输入，这样原本高响应的区域便被减弱，其他区域得到加强使模型能够更多的关注除高响应区域以外的区域，达到挖掘输入图片中全部有用特征的目的。

图3. 弱化特征卷积模块

4.2、弱化因子

在上一节中，研究者提出弱化因子，是一个影响模型性能的关键参数。在文中研究者提出了一个弱化因子的取值方案。

图4. 不同的弱化因子和阈值对高响应区域的影响，(a)不同弱化因子对应的特征弱化效果；(b) 不同的阈值对应的高响应特征。

弱化因子表示特征的弱化程度。从图 5(a)可以看出, 当时，显著特征完全减弱, 特征喊弱程度最大。当时，相当于不对特征进行操作，弱化程度最小。当在区间(0,1) 取一个值时，会有不同程度的弱化。从图 5 (b) 可以明显看出，高响应区域的大小随间值的变化而变化。当高响应区域较大，弱化因子较小时，在这种情况下，高响应特征将被完全覆盖，并且不会有任何有用的特征可用于模型识别。相反，当高响应区域很小，并且被完全覆盖时，这将迫使模型将重点放在其他有价值区域进行人识别，这更有利于获得全面的行人特征。因此，弱化因子应与高响应特征的大小是负相关的关系。因此研究者将弱化因子定义为其中为高响应区域在整个特征图中所占比例。

4.3、特征加强

通过上述操作获取具有价值的完整的行人特征区域，截取完整的有价值的特征去除背景噪声，如图5所示。将图5(a)输入网络获取完整的高响应区域如图5(b)中虚线框内的部分，并截取得到新的行人图像5(c)。

图5. 消除无价值特征增强有用特征

4.4、特征筛选

研究者通过一个多分支注意力网络如图3的后半部分所示，获取更有价值的特征。通过图6所示的网络获取N个注意力图，然后用N个注意力图构建N个注意力分支获取更有价值的特征，这里便起到特征筛选的作用。

图6. 注意力生成器

4.5、注意力多样性

为了保证注意力分支能够关注到不同的有价值的特征区域，研究者设计了一个保证注意力多样性的损失。本质是通过限制注意之间的距离来避免注意区域的重叠。具体来说，计算每个注意特征图的最大响应的位置作为每个注意的中心，使我们的任务成为不允许不同注意中心重叠的约束。在计算损失之前，首先对各个分支的注意力图作高斯分布，保证每个注意力图只有一个注意力中心。然后通过下式计算多样性损失：

5、损失函数

结合图3，研究者使用平滑交叉熵损失，困难样本三元组损失和注意力多样性损失共同组建模型的损失函数进行训练。

6、试验结果

研究者在Market-1501，DukeMTMC-reID，CUHK03-NP and MSMT17数据集进行了试验，并将试验结果与主流的方法进行了比较。试验表明，在四个数据集集上，所提的方法有明显的提升，具有较高的价值。

7、结论

研究者提出了一种结合全局和局部细粒度特征的特征选择网络来实现对人的再识别。该模型通过弱化显著特征来挖掘更有价值的特征，并在消除干扰信息后获得多样化的细粒度特征。通过实验，验证了特征细化和滤波网络在主流的人再识别数据集上的最新性能。

作者：宁欣，龚克，李卫军，张丽萍，百晓，田生伟
单位：中科院半导体所、北京航空航天大学、新疆大学、威富视界认知计算技术联合实验室

文章信息：X. Ning, K. Gong, W. Li, L. Zhang, X. Bai and S. Tian, "Feature Refinement and Filter Network for Person Re-identification," in IEEE Transactions on Circuits and Systems for Video Technology, doi: 10.1109/TCSVT.2020.3043026.

推荐阅读

再见，迁移学习？可解释和泛化的行人再辨识｜ECCV 2020

2020-10-06