多模态视频分类系列:简单综述
大家好,我是DASOU;
最近在做多模态视频分类,有一些感悟会通过文章分享给大家,今天先发一个简单的综述;
对我朋友圈的朋友可以加我微信【dasounlp】或者公众号主页右下角点击【联系我】,我随时发一些我看过的论文或者感悟,比如下面这种:
然后我插一句哈,有些时候问我问题我没回复不是我高冷~~
一般三种情况,1. 是真的没时间,2. 信息太多我忘了回复,现在每天问我问题的每天几十个信息,有些时候看完没回之后就忘了回复了,3.我觉得问题很简单百度一下就知道;
我也是有工作的,而且贼忙,也比较菜,不是啥都会的,大家也见谅一下~~~~
正文开始:
先从单模态视频分类说起,它分为三个方向去掌握:
双流网络;一支走图像,一支走光流,然后两支结果做融合;
3D卷积,就是在2D卷积的基础上加一个时间维度;
CNN-RNN系列,通过CNN获取图片特征,进而使用RNN获取图片特征之间的时序特征;
上面谈到的这三种方式,其实比较适合很短的视频;
我自己的应用场景其实是长视频,十几分钟甚至几十分钟的视频;视频时间长了,抽取的帧就会相应的变多,那么处理起来就会相当的麻烦
在工业界用到的长视频分类的方法,据我所知,大体是两个重点,一个重点是使用多模态,最重要的是加上文本信息,有的也会加上音频信息;
这点其实很好理解,比如一个【母婴育儿】方向的视频,抽取的帧最好包含母亲或者婴儿或者一些相关物品,才可能会被判定为【母婴育儿】的领域;
但是文字可能就简简单单的几个字就能把【母婴育儿】这个领域的概率拉上去;
所以基于我自己的应用场景,一定要明确一个概念,视频信息只能作为一种补充信息,而不是主要信息来源;
而在推理的时候,我也只会用到哪些 hard examples 进到多模态视频分类这一支网络;
第二个重点也很类似,因为视频信息只能作为补充,所以视频这边的网络最大的作用就是能更好的融合视频信息;
如果视频长度长达几十分钟,资源有限,为了提高推理速度,抽取的帧数也不能太多,比如控制在50个,其实光流信息基本就没啥了,RGBDiff这种基本也没啥了,唯一剩下点的就是时间信息,可能还不多;
所以重点就要放在提取帧的图像信息上,外加看能不能通过网络再把时间信息补充进来,有最好,没有感觉就转为了多模态图片分类;
所以帧的融合方式就会变得很重要;
简单来说,我这个文章的重点就是说,针对长视频,帧数控制在不太大的情况下,常规的网络基本不太实用,要把重点放在图像特征的提取和帧的融合;
特征提取一般就是CNN预训练模型,帧的融合一般就是使用lstm或者NetVlad等;
这个文章算是多模态视频分类的一个开篇,后续会把一些论文文章分享一下,transformer在图像和视频的应用这一块我也在慢慢看一些论文,后续有时间会试试效果。