ACM第一名:基于轨迹感知多模态特征的视频关系检测
共 1590字,需浏览 4分钟
·
2021-02-02 10:34
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
视频关系检测问题是指对视频中不同对象之间的关系进行检测,如空间关系、动作关系等。在本文中,作者提出了基于轨迹感知的多模态特征的视频关系检测来解决这一问题。考虑到视频视觉关系检测的复杂性,作者将该任务分解为三个子任务:目标检测、轨迹建议和关系预测。作者采用最先进的目标检测方法来保证目标轨迹检测的准确性和多模态特征表示来帮助预测目标之间的关系。作者的方法以11.74%的mAP在ACM多媒体2020的视频关系理解大挑战的视频关系检测任务中获得第一名,大大超过了其他方法。
本文提出了一种视频关系检测方法。作者按照[11]的方案,建立了一个目标轨迹检测模块和一个关系预测模块的系统。对于目标轨迹检测器,作者首先使用最先进的检测器级联RCNN[1],以ResNeSt101[17]为骨干,对每个视频帧进行目标检测。然后作者使用seq-NMS[3]改进的动态规划算法来关联所有帧的目标检测结果,并为每个目标生成轨迹。对于关系预测器,作者结合运动特征、视觉特征、语言特征和位置掩模特征对每对轨迹进行预测。多模态特征的使用有助于提高关系预测的准确性。作者的方法框架如图1所示,作者的方法在ACM Multimedia 2020的视频关系理解大挑战[12]视频关系检测任务中取得了第一名。
作者的方法框架
十字框架链接方式
预测网络的关系
作者在维多测试集上的详细评估分数(%)
与最新的VidOR验证集方法的比较(%)
在本文中,作者提出了轨迹感知的多模态特征用于视频关系检测。最后,作者获得了11.74%的mAP,在ACM多媒体2020视频关系理解大挑战的视频关系检测任务中排名第一。
论文链接:https://arxiv.org/pdf/2101.08165.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~