深度学习行人重识别综述与展望,TPAMI 2021 最新文章
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
作者 | 叶茫 武汉大学
编辑 | CV君
转自 | 我爱计算机视觉(微信id:aicvml)
摘要:行人重识别(Person Re-Identification,简称Re-ID),是一种利用计算机视觉技术来检索图像或者视频序列中是否存在特定行人的AI技术,在智慧城市等监控场景中具有重要的应用意义和前景。本文介绍我们最新的IEEE TPAMI综述论文 《Deep Learning for Person Re-identification: A Survey and Outlook》,该文作者来自武汉大学、起源人工智能研究院(IIAI)、北理工、英国萨里大学、Salesforce亚洲研究院。
综述:全面调研了近年来深度学习在 Re-ID 领域的进展,囊括了近几年三大视觉顶会上的大部分文章(如有遗漏,请谅解)。主要包括 Closed-world Re-ID 与 Open-world Re-ID 的研究进展,常用数据集和评价指标的概述,并分析了现有方法的不足和改进点。
展望:1) 一个新的评价指标 mINP,用来评价找到最困难匹配行人所需要的代价;2) 一个强有力的 AGW 方法,在四种不同类型的 Re-ID 任务,包括 12个数据集中取得了较好的效果;3) 从五个不同的方面讨论了未来 Re-ID 研究的重点和难点,仅供大家参考。
最新版本论文地址:https://arxiv.org/abs/2001.04193v2
论文代码和评价指标开源地址:https://github.com/mangye16/ReID-Survey
01
前言
数据采集,一般来源于监控摄像机的原始视频数据;
行人框生成,从视频数据中,通过人工方式或者行人检测或跟踪方式将行人从图中裁切出来,图像中行人将会占据大部分面积;
训练数据标注,包含相机标签和行人标签等其他信息;
重识别模型训练,设计模型(主要指深度学习模型),让它从训练数据中尽可能挖掘“如何识别不同行人的隐藏特征表达模式”;
行人检索,将训练好的模型应用到测试场景中,检验该模型的实际效果。
02
通过图像或视频,可见光(RGB)摄像机捕捉行人;
行人由 bounding boxes 框出;
有足够多的被标注训练数据;
标注的数据标签通常都是正确的;
query person 必须出现在 gallery set 中。
2.1 特征学习方法
全局特征学习:利用全身的全局图像来进行特征学习,常见的改进思路有Attention 机制,多尺度融合等; 局部特征学习:利用局部图像区域(行人部件或者简单的垂直区域划分)来进行特征学习,并聚合生成最后的行人特征表示; 辅助特征学习:利用一些辅助信息来增强特征学习的效果,如语义信息(比如行人属性等)、视角信息(行人在图像中呈现的不同方位信息)、域信息(比如每一个摄像头下的数据表示一类域)、GAN 生成的信息(比如生成行人图像)、数据增强等; 视频特征学习:利用一些视频数据提取时序特征,并且融合多帧图像信息来构建行人特征表达 特定的网络设计:利用 Re-ID 任务的特性,设计一些细粒度,多尺度等相关的网络结构,使其更适用于 Re-ID 的场景。
2.2 度量学习方法
Identity Loss: 将 Re-ID 的训练过程当成图像分类问题,同一个行人的不同图片当成一个类别,常见的有 Softmax 交叉熵损失函数; Verification Loss:将 Re-ID 的训练当成图像匹配问题,是否属于同一个行人来进行二分类学习,常见的有对比损失函数,二分类损失函数; Triplet Loss:将 Re-ID 的训练当成图像检索问题,同一个行人图片的特征距离要小于不同行人的特征距离,以及其各种改进; 训练策略的改进:自适应的采样方式(样本不均衡,难易程度)以及不同的权重分配策略
2.3 排序优化
2.4 数据集和评价
03
多模态数据,所采集的数据不是单一的可见光模态;
端到端的行人检索(End-to-end Person Search),没有预先检测或跟踪好的行人图片/视频;
无监督和半监督学习,标注数据有限或者无标注的新场景;
噪声标注的数据,即使有标注,但是数据采集和标注过程中存在噪声或错误;
一些其他 Open-set 场景,查询行人找不到,群体重识别,动态的多摄像头网络等。
3.1 多模态(异构)数据
基于深度图像 Re-ID:旨在利用深度图信息的匹配(融合或跨模态匹配),在很多人机交互的室内场景应用中非常重要; 文本到图像 Re-ID:旨在利用文字语言描述来搜索特定的行人图像,解决实际场景中查询行人图像缺失等问题; 可见光到红外 Re-ID:旨在跨模态匹配白天的可见光图像到夜晚的红外行人图像,也有一些方法直接解决低照度的重识别任务; 跨分辨率 Re-ID:不同高低分辨率行人图像匹配,旨在解决不同距离摄像头下行人分辨率差异巨大等问题
总体而言,异构的行人重识别问题需要解决的一大难题是不同模态数据之间的差异性问题
3.2 端到端Re-ID(End-to-end Person Search)
纯图像/视频的 Re-ID;从原始 raw 图像或者视频中直接检索出行人; 多摄像头跟踪的 Re-ID;跨摄像头跟踪,也是很多产业化应用的重点。
3.3 半监督和无监督的 Re-ID
无监督 Re-ID:主要包括一些跨摄像头标签估计(聚类或图匹配等)的方法,以及一些其他监督信息挖掘的方法(如local patch相似性等); 无监督域自适应 Re-ID:包括一些目标域图像数据生成和一些目标域监督信息挖掘等方式。
如下表所示:
3.4 噪声鲁棒的Re-ID
Partial Re-ID:解决行人图像区域部分被遮挡的行人重识别问题; Noise Sample:主要针对行人图像或视频中检测、跟踪产生的错误或偏差 Noise Label:主要针对行人标签标注产生的错误
3.5 Open-set Re-ID and Beyond
04
展望
4.1 新的评价指标mINP:
4.2 新的基准方法AGW
Non-local注意力机制的融合;
Generalized-mean (GeM) Pooling的细粒度特征提取;
加权正则化的三元组损失(Weighted Regularization Triplet (WRT) loss)
在审稿人的建议下,我们在四种不同类型的任务(图像Re-ID, 视频Re-ID,跨模态红外Re-ID和Partial Re-ID)的12个数据集上均对我们提出的新指标mINP和AGW方法进行了测评,在大多数情况下,我们的方法都能够取得比较好的效果。具体的实验结果和分析可以参考我们的论文和补充材料,希望我们的方法和评价指标能对大家有一些帮助。
4.3 对未来一些研究方向的思考
不可控的数据采集:不确定多种模态混合的 Re-ID,而不是固定的模态设置;换装的 Re-ID,2020 年已经有好几个新的数据集; 减少人工标注依赖:人机交互的主动学习,选择性的标注;从虚拟数据进行学习(Learning from virtual data),如何解决虚拟数据中的domain gap; 面向 Re-ID 通用网络设计:Domain Generalized Re-ID,如何设计一种在未知场景中也表现优异的模型,如何利用自动化机器学习来设计针对 Re-ID 任务的网络模型; 动态的模型更新:如何以小的代价将学习好的网络模型微调至新摄像头场景中;如何高效的利用新采集的数据(Newly Arriving Data)来更新之前已训练好的模型; 高效的模型部署:轻量型快速的行人重识别算法设计,自适应的针对不同类型的硬件配置(小型的移动手机和大型服务器)调整模型。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~