亚马逊李沐团队提出:行为识别的全面调研(2014-2020)

新智元

共 789字,需浏览 2分钟

 ·

2020-12-26 04:52



  新智元报道  

来源:CVer

作者:Amusi

【新智元导读】本文对基于深度学习的视频行为识别论文进行了全面调研,按时间顺序详细介绍并盘点出重要工作,还统计出了17个视频行为识别数据集,最后还复现了大量优秀工作的代码,现已开源!


论文:https://arxiv.org/abs/2012.06567
模型库介绍链接:
https://cv.gluon.ai/model_zoo/action_recognition.html



视频行为识别是视频理解的代表性任务之一。在过去的十年中,由于深度学习的出现,我们见证了视频行为识别的巨大进步。但是我们也遇到了新的挑战,包括对视频中的远程时间信息进行建模,高昂的计算成本以及由于数据集和评估协议差异而产生的无与伦比的结果。
在本文中,我们对200多篇有关深度学习的视频行为识别现有论文进行了全面调查。

数据集


我们首先介绍影响模型设计的17个视频动作识别数据集,比如Kinetics700、AVA等等。如下图所示:


视频动作识别模型


然后,我们按时间顺序介绍了视频动作识别模型:
从适应深度学习的早期尝试开始,然后到双流网络,接着是3D卷积内核的采用,最后是最近的计算效率高的模型

此外,我们在几种代表性数据集上对流行方法进行了基准测试,并发布了可复现的代码:Action Recognition。


最后,我们讨论了未解决的问题,并阐明了视频动作识别的机会,以促进新的研究思路。


论文PDF:

链接:https://pan.baidu.com/s/1q2Niy9jYacK9mwrHftNx5Q 

提取码:cver






浏览 17
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报