ACM第一名：基于轨迹感知多模态特征的视频关系检测-技术圈

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

小白导读
论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

视频关系检测问题是指对视频中不同对象之间的关系进行检测，如空间关系、动作关系等。在本文中，作者提出了基于轨迹感知的多模态特征的视频关系检测来解决这一问题。考虑到视频视觉关系检测的复杂性，作者将该任务分解为三个子任务:目标检测、轨迹建议和关系预测。作者采用最先进的目标检测方法来保证目标轨迹检测的准确性和多模态特征表示来帮助预测目标之间的关系。作者的方法以11.74%的mAP在ACM多媒体2020的视频关系理解大挑战的视频关系检测任务中获得第一名，大大超过了其他方法。

本文创新点

本文提出了一种视频关系检测方法。作者按照[11]的方案，建立了一个目标轨迹检测模块和一个关系预测模块的系统。对于目标轨迹检测器，作者首先使用最先进的检测器级联RCNN[1]，以ResNeSt101[17]为骨干，对每个视频帧进行目标检测。然后作者使用seq-NMS[3]改进的动态规划算法来关联所有帧的目标检测结果，并为每个目标生成轨迹。对于关系预测器，作者结合运动特征、视觉特征、语言特征和位置掩模特征对每对轨迹进行预测。多模态特征的使用有助于提高关系预测的准确性。作者的方法框架如图1所示，作者的方法在ACM Multimedia 2020的视频关系理解大挑战[12]视频关系检测任务中取得了第一名。

框架结构

作者的方法框架

十字框架链接方式

预测网络的关系

实验结果

作者在维多测试集上的详细评估分数(%)

与最新的VidOR验证集方法的比较(%)

结论

在本文中，作者提出了轨迹感知的多模态特征用于视频关系检测。最后，作者获得了11.74%的mAP，在ACM多媒体2020视频关系理解大挑战的视频关系检测任务中排名第一。

论文链接：https://arxiv.org/pdf/2101.08165.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

- END -

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目31讲

在「小白学视觉」公众号后台回复：Python视觉实战项目31讲，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~