GaitSet:通过交叉视角步态识别
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
步态是一种独特的生物特征,可以在一定距离内被识别;因此,它在犯罪预防、司法鉴定、社会保障等方面有着广泛的应用。为了描述步态,现有的步态识别方法要么使用难以保存时间信息的步态模板,要么使用保留不必要的序列约束从而丧失步态识别灵活性的步态序列。在本文中,作者提出一个新颖的视角,采用步态作为一套深,这意味着一套步态框架由一个全球性的本土集成融合深度网络受左,右半球处理信息的方式学习信息,可用于识别。基于这种深集视角,作者的方法不受帧排列的影响,可以很自然地将不同场景下获取的不同视频帧进行整合,比如不同的观看角度,不同的衣服,或者不同的携带物品的情况。实验表明,在正常步行条件下,作者的单模型方法在CASIA-B步态数据集上的平均秩1精度达到96.1%,在OU-MVLP步态数据集上的平均秩1精度达到87.9%。在各种复杂的场景下,作者的模型也表现出高度的健壮性。在提包行走和穿大衣行走条件下,CASIA-B的准确率分别达到90.8%和70.3%,显著优于现有的最佳方法。此外,该方法即使在测试样本中帧数较少的情况下也能保持令人满意的精度;例如,在CASIA-B上,即使只使用7帧,它也能达到85.0%。
代码链接:https://github.com/AbnerHqC/GaitSet
作者提出了一种端到端的深度学习模型,称为Gaitset,从步态框架集提取特征来识别步态。图2为Gaitset的总体方案。作者模型的输入是一组步态轮廓。首先,使用CNN从每个轮廓独立提取帧级特征(局部信息)。其次,一个称为集池的操作用于将帧级特性聚合为单个集级特性(全局信息)。由于该操作使用的是高级特征图而不是原始轮廓,它比步态模板更好地保存了空间和时间信息;这方面在第4.5节中得到了实验验证。全局-局部融合深度网络类似于作者的大脑处理[11]信息的方式。第三,应用水平金字塔映射(HPM)结构将集-水平特征投影到一个更具判别性的空间,以获得最终的深集表示。本文所提出的方法的优越性可以概括为以下三个方面:
灵活:作者的模型非常灵活,因为除了轮廓的大小,它没有对输入施加任何限制。这意味着输入集合可以包含任意数量的非连续轮廓,这些轮廓是在不同的视点和不同的行走条件下拍摄的。
快速:作者的模型直接学习步态的深层步态表征,而不是测量一对步态模板或序列之间的相似性。这样,每个样本的表示只需计算一次,通过比较不同样本表示之间的欧氏距离即可进行识别。
有效:作者的模型显著提高了CASIA-B[12]和OU-MVLP[13]数据集的最新性能,显示出对观察和行走条件变化的强大鲁棒性和对大数据集的高泛化能力。
GaitSet的框架。SP表示集合池。梯形表示卷积和池块,在同一列中的那些具有相同的配置,如大写字母的矩形所示。注意,尽管MGP中的块与主管道中的块具有相同的配置,但参数只在主管道中的块之间共享,而不与MGP中的块共享。HPP表示水平金字塔池化。
七个不同的集合池(SP)实例化。1_1C和cat分别表示1×1卷积层和连接操作。其中,n表示集合中特征映射的数量,c、h、w分别表示通道数量、特征映射的高度和宽度。a.三个基本统计关注和两个联合关注,b.像素关注和c.帧关注。
水平金字塔的结构映射
在这篇论文中,作者提出了一个新的观点,将步态视为一个深度集,称为步态集。与现有的将步态视为模板或序列的方法相比,本文提出的步态提取方法能更有效地提取空间和时间信息。与其他现有的步态识别方法不同,GaitSet方法还提供了一种创新的方法,可以从不同序列中聚合有价值的时空信息,以提高跨视角步态识别的准确性。在两个基准步态数据集上的实验表明,与其他最先进的算法相比,GaitSet实现了最高的识别精度,结果表明,GaitSet在应用于各种复杂环境时表现出广泛的灵活性和鲁棒性,显示了实际应用的巨大潜力。此外,由于set假设可以适用于各种其他生物特征识别任务,包括人的再识别和基于视频的人脸识别,GaitSet的结构可以在未来应用于这些任务,很少有微小的变化。
论文链接:https://arxiv.org/pdf/2102.03247.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~