第二届“马栏山”杯国际音视频算法大赛高分攻略

DOTA

共 3018字,需浏览 7分钟

 ·

2022-02-09 17:35

一秒让墙上的广告消失,保留完整墙面;

户外大屏幕显示LOGO被擦除后,背景毫不违和……

欢迎来到魔法世界——

停!这其实并不是什么魔法,而是由弗吉尼亚理工大学提出的基于流的视频补全算法FGVC的一项应用。作为视频的“橡皮擦”,FGVC可应用在视频去水印、物体移除、画面扩展等方面,并入选 ECCV 2020,极具研究意义。

在智能时代,通过视频补全算法,后期可以利用影视剧集数据构建模型,将非局部流连接引入到时间遥远帧,实现真正的视频补全或者抹除,堪称音视频产品的魔法师。正因如此,视频补全也成为第二届“马栏山”杯国际音视频算法大赛重要赛题之一。

我们不难发现,随着AI技术的持续发展,算法带来了无限的想象空间。比如优质视频的推荐,视频水印的消除,甚至还能通过算法来掌握音乐节奏,让人人都能享受更加优质的音视频服务。那么作为开发者,要如何才能在算法的浪潮之中实现突破呢?

为给广大开发者及算法爱好者提供一个展现自身实力的舞台,共同推进业界难题攻坚、行业创新探索,由中国(长沙)马栏山视频文创产业园和芒果TV联合举办第二届“马栏山”杯国际音视频算法大赛正式拉开序幕。本次大赛分为邀请赛、正式赛及现场颁奖交流分享三个阶段,其中邀请赛阶段已经结束,而正式赛则分为视频补全、视频推荐及音乐节拍检测三大赛道,更有心动大奖,为了帮助大家取得更好的成绩,笔者为大家梳理一下每个赛题的题目要求和解题思路。

三大赛题,瞄准音视频算法业务焦点

NO.1视频补全赛道

视频补全技术是用新合成的内容填充给定的时空区域,可以应用在视频修复、视频编辑、特效处理、去水印等场景中。新合成的内容应该无缝嵌入视频中,使得更改不被察觉。而此赛道就是要求以大赛组织方提供的视频片段数据为基础,进行模型训练,对缺失区域进行补全。其难点在于确保补全后的视频连贯自然,不具有违和感。

在这个领域,几年前常用的方法是基于补丁的合成技术直接填补像素,该方法合成速度慢、较难控制。目前常用的视频补全方法通常需要借助深度学习来实现,如果仅依赖卷积神经网络来借用复制补充,不仅效率低,合成图像很容易因为图形和纹理的模糊导致用户观感较差。这里可以参考FGVC算法,经过计算稠密光流(RAFT)、计算边缘(Canny)、补全边缘(EdgeConnect)、补全光流、传播RGB值等一系列流程,能够取得更好效果。

此外,结合利用Deepfill进行图像补全也是一个不错的思路。相关论文和项目地址详细传送门如下:

FGVC论文地址:arxiv.org/pdf/2009.0183

Deepfill论文地址:arxiv.org/pdf/1801.0789

NO.2视频推荐赛道

据艾媒咨询数据显示,中国短视频行业覆盖的用户规模不断扩大,2020年达7.22亿人。如何吸引用户点击视频,吸引用户观看,成为各大视频平台的关键技术之一。而本次视频推荐赛题,也直击真实的推荐业务场景,打造了一个多任务的推荐问题,希望选手设计出一套精准有效的推荐模型。

推荐算法本质上是一种信息处理逻辑。模型获取了用户和视频各自信息后,会按照一定的逻辑处理信息,得到推荐结果。以往粗放推荐缺乏精确度,而推荐算法则需要制定复杂的规则运算逻辑,挖掘用户兴趣,实现千人千面的个性化推荐。其难点在于特征提取、内容匹配和排序,在实际应用中,推荐算法可以分为五步,即召回、过滤、精排、混排和强规则。

本次比赛,官方提供了海量的特征维度和数据信息,用户可以基于此使用XGboost、GBDT等传统机器学习模型,也可以使用DSSM、DIN、DeepFM等深度学习模型来针对视频特征和用户特征进行建模。一般而言,深度学习与传统模型有两种融合方式:松耦合模型和紧耦合模型,二者各有优势,松耦合模型可以灵活组装,而紧耦合模型则可以通过联合训练从而得到整体最优效果。

这里比较推荐《深度学习在推荐算法上的应用进展》一文,大家可以自行百度搜索作为参考,同时,官方提供的baseline链接如下:

ad-implant.oss-cn-beijing.aliyuncs.com

NO.3音乐节拍检测赛道

通过检测音乐节奏,来合理识别出音乐节拍的准确位置,对音频处理尤为关键。此赛道出题方要求以指定的数据集为研究基础,通过算法实现对节拍beat和重拍downbeat的检测并标识时间点位。

随着多媒体技术的发展,在智能节奏检测、节奏跟踪等上出现一些研究成果,如基于贝叶斯理论的单音音乐节奏提取方法,引入贝叶斯节奏模型,采用基于贝叶斯理论的序列蒙特卡洛方法推断音乐片段的小节和节拍的位置,但这些研究可能存在计算复杂度较高、准确度较低等缺点。

当然,条条大路通罗马,检测音乐节拍不只有一种思路,论文《Beat Tracking by Dynamic Programming》便提供了借助动态规划算法来构建模型的思路,论文地址如下:ee.columbia.edu/~dpwe/p

其建模思路主要分为三步:首先计算Onset Strength Envelope(Onset的能量包络),然后计算全局的Tempo,最后基于动态规划计算beats。

此外,论文《Real Time Beat Tracking: A Mixed Approach Category: Music》提供了另一种解题方式,论文地址如下:

cs230.stanford.edu/proj

该论文中表示,除了以往基于信号处理,利用CNN和RNN打造的实时或离线处理系统之外,也可以有不依赖神经网络的方法,通过傅里叶变换也可以探查音乐中的音符、和弦以及打击节奏等事件,再次对这些事件进行傅里叶变换就可以找到其中周期性从而确定节奏和节拍的位置。当然,最终采用哪种方法,选手可以结合实际情况自行选择。

机会与奖励已就绪,待八方“攻城狮”来战

随着人工智能、5G技术的飞速发展,音视频算法新赛道已然呈现。

由中国(长沙)马栏山视频文创产业园和芒果TV联合举办第二届“马栏山”杯国际音视频算法大赛不仅提供了一个让大家一展才华和交流学习的舞台,还设置了丰富的奖励和奖金等你来拿!


奖项设置情况如下:

  • 视频补全赛道中,冠军33万元,亚军8.5万元季军,季军3.5万元,排名第4至10名均可获得8000元;
  • 视频推荐赛道中,冠军24万元,亚军6万元,季军2.5万元,排名第4至10名均可获得5000元;
  • 音乐节拍检测赛道中,冠军24万元,亚军6万元,季军2.5万元,排名第4至10名均可获得5000元;


正式赛的赛程安排情况如下:

  • 正式赛报名:2021年5月20日-2021年7月17日
  • 正式赛比赛:2021年6月5日-2021年7月20日
  • 获奖公布:2021年7月26日

需要注意的是,本次大赛不会设答辩环节,最终成绩以线上评分为准,同时大赛所设奖项奖金均为含税金额。


还等什么?赶快加入大赛,与各路高手一较高下吧!

链接:challenge.ai.mgtv.com/c

challenge.ai.mgtv.com/h (二维码自动识别)

浏览 5
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报