↑ 点击蓝字关注极市平台

作者丨赛文

来源丨AI科技评论

编辑丨极市平台

极市导读

不久前，一组研究者结合实时任务中算法的准确率和延迟情况，提出了“流感知”评估函数，这一方向还存在很大的研究空间。

今天解读的论文的是不久前获得ECCV 2020 最佳论文提名奖的《Towards Streaming Perception》。

在这篇论文中，来自CMU和UIUC的研究者针对实时在线感知问题，分析了现有算法对延迟优化的忽略，提出了一种流感知的概念，并将算法准确率和延迟结合在一起提出了一种新的评估标准，作者认为这才符合实时在线感知的实际应用场景。

论文链接：

https://arxiv.org/abs/2005.10420

代码链接：

https://github.com/mtli/sAP

1 动机

自动驾驶以及虚拟现实等应用都需要低延迟的算法来支撑，为了保证安全和提供给用户足够的视觉沉浸感，算法的延迟标准应该和人类对场景改变的反应时间保持一致，通常是200毫秒。近来的计算机视觉算法也开始考虑延迟（Latency）对算法性能的影响，但也仅仅是在离线环境下考虑如何提高算法的准确率（Accuracy），并在二者之间寻找一个平衡点。

以这种评估方法优化得到的算法还无法应用在实时在线的感知场景中，因为当算法完成对某一帧图像的处理时，比如200ms后，周围的环境就已经发生了变化。如下面的视频所示，算法在得到第一帧中车辆的分割结果后，车辆就已经运动到另一个位置了，那此时所得到的分割结果的意义就很小了。

本文提出了一种方法可以将延迟和准确率结合起来应用在实时的算法评估中，作者称之为“流准确率”，并在此度量的基础上，提出了流感知的元基准，可以将任何单帧任务转换为流感知任务。

2 元基准

元基准可以系统地将任何图像理解任务转换为流式图像理解任务。流感知评估的目标不再是单个函数，而是评估一段连续时间内的程序操作：首先将一段时间内的图像帧集合输入到模型中，模型会将每个输入帧的估计值附上时间戳存储到缓冲区，该缓冲区代表了当前世界的最新状态（例如，场景中目标物体的bounding box列表）。

元基准需要遵循的一个约束是，流式感知需要随时了解世界的状态，当一个新的图像帧到达时，流式算法必须报告世界的状态，即便算法还没有完成对上一帧的处理，该约束迫使算法在计算时必须考虑丢弃一些冗余的图像帧。

1、预测值与Ground Truth

为了定义评估函数，我们首先要建立预测值和Ground Truth（GT）的数据对，其中GT直接使用离线评估中的GT标签

，相应的预测值为

，标准离线任务的评估是针对(

)进行计算，而进行流式评估时，评估的对象会变为(

)。

如上图所示，给定时间

，算法会对

之前缓冲区中的预测值进行选择，这些预测值都与一个时间戳

进行配对，这也正是流感知评估与离线评估不同的地方，离线评估中的预测值是与输入帧的顺序（索引）配对。由于流式感知在计算过程中会对冗余帧进行删除，作者选择了与t时刻最接近的预测值

与GT进行计算，其中

为：

在获得了预测值和Ground Truth（GT）的数据对后，就可以定义评估函数：

前面提到元基准可以将任何单帧图像理解任务转换为流式理解任务，所以这里

可以是图像分类任务中的Acc，目标检测任务中的AP，或者是实例分割任务中的mIoU。

2、流式感知处理实时算法

本文提出的流感知处理实时算法与传统方法有着较大的差异，传统方法限制算法在下一帧到来之前就要完成对前一帧的处理，这就需要算法在传感器（摄像头）的采集帧率内运行，例如30FPS，作者认为这种方式有很大的局限性，不应该在任何情况下都认为30FPS等同于实时运行。反而可以将传感器的采集帧率看作是一个可调整的参数，同时结合算力和应用场景对下游任务进行优化。

流感知绕过了这个限制，在算法报告每一帧的状态时，无需完成上一帧的运算。在对算法进行评估时，也要实现“即时”评估，即在时刻

就要查询

的状态，乍一看这样并不合理，因为任何一个高效的算法都需要时间

来执行运算，它只能使用时间

之前的数据。作者认为这才是实时算法应该考虑的实际评估环境。

对人类而言，想要即时的对世界做出反应，离不开大脑对世界状态的预测，例如棒球运动员在面对飞向他的球时，也不是在球到他手中的那一刻才进行反应，而是需要大脑提前对棒球的位置进行预测，所以流式感知在处理实时任务时也要考虑加入预测的算法。

3 实验

根据上面定义的流式感知元基准以及评估函数，作者重点选择了目标检测作为视频理解任务进行了实验，并在相同条件下与离线感知进行了对比。

1、数据集准备

作者选择了Argoverse1.1[1]数据集，该数据集是自动驾驶领域中常用的数据集，包含了许多传感器数据，作者重点选取了其中的RGB图像数据，对其做了额外的密集标注构成了Argoverse-HD（High-frame-rate-Detection ），新数据集中每个场景的视频的帧率为30FPS，同时标注密度与该帧率保持一致。

2、流式感知与离线感知对比

这里分别使用了几个SOTA的目标检测器进行了实验，其中Hybrid Task Cascade(HTC)[2]作为baseline模型，RetinaNet[3]作为一个快速检测器，并在Mask R-CNN[4]上进行了优化。

下面视频展示了HTC检测器离线感知的效果，对应到上面表格中的第1行，AP值是38.0，检测效果近乎完美，但是需要清楚的是，离线感知评估时，是将整个视频输入到检测器中，检测器对每一帧的预测都可以利用全局的信息，这种方式在实时的应用中是无法实现的。

作者同样使用HTC检测器，以相同的帧率进行了流式感知测试，对应到上面表格中的第2行，效果如下：

很明显，不加任何额外处理的流式感知方式，检测性能会直线下降，AP值只有6.2。作者认为现有的网络仅仅针对吞吐量进行优化，而很少考虑延迟，社区可能一味的追求较高的离线分数，而忽略了真正影响算法落地的延迟因素。例如，图像预处理（缩放和归一化等操作）通常是在CPU上完成的，然后调度到GPU中进行推理，这中间就会带来很高的延迟。

为了提高流式感知的检测性能，作者提出了几种方法，第一种是通过绘制检测器的延迟-准确率帕累托曲线，然后权衡二者来寻找到一个最优点，如下图所示，这也是目前最为直接的方法。

这种方法的检测效果如下，AP为12.0，对应到上面表格中的第6行

可以看到效果已有不少的提升，但是仍然无法与离线感知相比，这也反映出目前急需对实时流式算法的研究。

作者还提出使用动态调度的方法，即帮助算法丢弃一些无用冗余的帧，来提高检测精度。在算法处理完前一帧之后，需要对下一帧进行一个简单的判断，判断该帧是否需要丢弃，判断方法如下：

上一帧结束时间为

，算法处理单帧的运行时间为

，首先定义尾部函数

来计算给定时刻

的算法处理结束时间，

表示下一帧的算法处理结束时间，

表示上一帧的算法处理结束时间，然后使用艾弗森括号（Iverson bracket）判断两个尾部时间的关系进而决定当前帧是否需要丢弃。

在数学中，以Kenneth E. Iverson命名的“艾佛森括号”，是一种用方括号记号，如果方括号内的条件满足则为1，不满足则为0.

如下图所示，先使用艾弗森括号比较两个尾部时间

和

，可以判断出第2帧为冗余帧，算法直接空闲等待一会(Sit idle and wait!)，直接处理第3帧。这种动态调度的方式可以将流感知的检测精度提升到13.0，与上面表格第7行对应。

4 结论

本文引入了一个元基准，可以将现有的图像或者视频理解任务转换为流式感知任务，以便应用到自动驾驶等实时性的任务中，同时结合准确率和延迟提出了一个整体的流感知评估函数，并对现有的一些SOTA检测算法进行了实验，发现了实时在线感知与离线感知的差距，虽然作者也提出了一些改进的方法，但仍存在很大的提升空间，作者希望通过该工作来启发更多高效的流感知方法。

引用文献

[1] Chang, Ming-Fang, et al. "Argoverse: 3d tracking and forecasting with rich maps." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

[2] Chen, Kai, et al. "Hybrid task cascade for instance segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2019.

[3] Lin, Tsung-Yi, et al. "Focal loss for dense object detection." Proceedings of the IEEE international conference on computer vision. 2017.

[4] He, Kaiming, et al. "Mask r-cnn." Proceedings of the IEEE international conference on computer vision. 2017.

推荐阅读

无痛涨点：目标检测优化的实用Trick
综述：目标检测二十年
总结目标检测匹配策略与改进思路

添加极市小助手微信（ID : cvmart2），备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳），即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群：每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

△长按添加极市小助手

△长按关注极市平台，获取最新CV干货

觉得有用麻烦给个在看啦~

目标检测别再刷榜了，让流感知来展示真正的技术！ECCV 2020 最佳论文提名