【论文推荐】张笑钦团队 | 综述：基于深度学习的视觉跟踪方法进展-技术圈

导读

IJAC特约稿件

人眼可以比较轻松地在一段时间内持续定位特定目标，而在计算机视觉领域，这一任务便是高级计算机任务之一——"目标跟踪"。但对计算机而言，在不同场景下实现目标跟踪任务是一件较为困难的事情，尤其在跟踪目标发生剧烈形变、被其他目标遮挡或出现相似物体干扰等复杂情况下。因此，在计算机视觉领域，目标跟踪(特指单目标跟踪)是指：给出目标在跟踪视频第一帧中的初始状态(如位置，尺寸)，自动估计目标物体在后续帧中的状态和移动轨迹。近年来，深度学习方法开始在目标跟踪领域崭露头角，并逐渐在性能上超越传统方法。温州大学人工智能与计算机学院院长张笑钦教授团队综述了基于深度学习的视觉跟踪方法进展，相关成果已发表于IJAC，全文免费下载！

Springer截图.jpg

图片来自Springer (点击上图下载全文)

全文导读

什么是"单目标跟踪"？如下图所示，三张图片分别是同一视频的第1、第40和第80帧。在第1帧给出一个跑步者的边框之后，后续的第40帧、第80帧，边框依然准确对同一个跑步者进行框定。以上展示的其实就是目标跟踪(visual object tracking)的过程。也就是说，目标跟踪(特指单目标跟踪)是指：给出目标在跟踪视频第一帧中的初始状态(如位置，尺寸)，自动估计目标物体在后续帧中的状态。

图片来自网络

单目标跟踪(Single object tracking)是计算机视觉和视频处理领域一项基本且关键的任务，其在导航、机器人、交通控制和增强现实等行业中应用十分广泛。因此，不少研究者致力于解决单目标跟踪任务衍生的各种挑战，试图开发出有效的跟踪算法。然而，由于难以平衡跟踪算法的准确性和高效性，这项任务仍然十分具有挑战性。此外，现有算法在复杂场景下(如背景杂波、运动模糊、视点变化、光照变化等)的鲁棒性也是一个亟需研究的热点问题。

单目标跟踪旨在从视频的所有帧中定位一个特定目标。为此，跟踪算法通常是从目标外观模板(template of target appearance)和搜索框(search frame)中提取一定特征，然后对这些特征进行反复匹配来定位目标。为了保留有效的目标模板，在跟踪过程中，目标出现的初始帧所呈现的外观将作为初始值(initialization)，并不断更新。而匹配框架(matching framework)则是在整个跟踪过程中根据初始值等有效信息进行响应。

因此，整个过程所提取的特征应具有代表性，保证可准确区分目标和背景。传统的跟踪算法由于提取出来的特征不能全面反映目标的特征，往往性能欠佳。据此，传统跟踪算法可从两方面改进：一是寻找能够更好反映目标外观(characteristics of the object)的特征(features)，二是提出有效的匹配框架。例如，基于模板的(template-based)、基于子空间的(subspace-based)以及稀疏表示(sparse-representation)的方法会使用某些元素来表示目标，而不是直接使用裁剪的像素(cropped pixels)或图像块(image patches)来表示。诸如boosting、支持向量机(support vector machine)、随机森林(random forest)、多示例学习(multiple instance learning)以及度量学习(metric learning)等框架也被用于提升跟踪算法的匹配能力。

随着深度学习机制(deep learning mechanisms)的发展，许多研究者着手开展计算机视觉、语音识别、自然语言处理等任务。在众多突破的推动下，深度学习机制也被引入单目标跟踪任务中。同时，一些跟踪数据集，如OTB-2013及VOT-2013相继提出，用以测试与评价跟踪算法的性能。

一些论文也回顾了基于深度学习的跟踪算法的进展和挑战。然而，数据统计结果显示(见表1)，这些论文都没有综述近期发表在顶级会议和期刊上的跟踪方法。此外，现有的研究大多集中于根据深度跟踪器的方法对其进行分类，或对其性能进行评估。可以注意到，现有的综述没有详细研究当前深度跟踪器的具体组成部分(details specific components)。

图片来自文章

为促进基于深度学习的单目标跟踪算法的发展，本文总结了现有的基于深度学习的跟踪算法的一般组成部分(general components)，并介绍了深度神经网络的常用组成部分(popular components)，以及提高深度神经网络的特征表征能力(representative ability of the features)。此外，本文通过收集和分析基准数据集上的指标来比较近期提出的深度跟踪器(deep trackers)。通过这种方式，本文得出了一些重要的观察结果。例如，通过比较，我们发现注意力机制(attention mechanisms)被广泛用于在线更新方法(online-updating methods)和离线训练方法(offline-trained ones)的结合上。另一方面，由于深度跟踪器中不同的组件有不同的特性，仅改进单个组件有时无法改进跟踪过程。

本文其余部分组织如下：第二部分对有效深度学习方法的基本框架和新机制进行了列举。第三部分介绍了深度跟踪器的一般组件(general components)。第四部分详细说明了常用的跟踪数据集(popular tracking datasets)，并进行了比较。本文还介绍了一些常用指标(popular metrics)，可在常用跟踪数据集(popular tracking datasets)中评估跟踪性能。第五部分基于这些指标，对近期发布的深度跟踪器的性能进行了分析和比较。基于这些比较结果，第六部分给出了若干观察结果。第七部分为本文结论。

全文下载

Advances in Deep Learning Methods for Visual Tracking: Literature Review and Fundamentals

Xiao-Qin Zhang, Run-Hua Jiang, Chen-Xiang Fan, Tian-Yu Tong, Tao Wang, Peng-Cheng Huang

https://link.springer.com/article/10.1007/s11633-020-1274-8

http://www.ijac.net/en/article/doi/10.1007/s11633-020-1274-8

特别感谢论文作者：温州大学张笑钦教授、蒋润华同学、范晨翔同学、童天宇同学、王涛同学、黄鹏程同学对以上内容的审阅和修改！

点击"阅读原文"下载全文