CVPR 2022：字节跳动多项竞赛夺冠，发力无障碍技术创新-技术圈

新智元报道

编辑：好困

【新智元导读】在今年的CVPR上，字节跳动斩获了多项竞赛冠军。

作为一年一度AI计算机视觉领域的顶级盛会，CVPR 2022已经落下帷幕。

字节跳动旗下的极光-多模态技术团队、智能创作团队、火山引擎多媒体实验室团队斩获了多项竞赛冠军，覆盖「视觉问答」、「图像实例分割」、「长视频内容理解」、「图片恢复」，以及「图片视频压缩技术」等场景。

其中，两项研究成果有助于视障人群克服日常生活中的视觉挑战、提升残障人士出行的安全性，助力打造无障碍环境。

‍帮助视障人士精准「识图」，视觉问答竞赛高精度技术方案夺冠

「视觉问答」是通向多模人工智能的一项基础挑战。

一个自然的应用就是帮助视障人群克服他们日常生活中的视觉挑战，如视障群体通过手机镜头捕获视觉内容，再通过语言对镜头中的内容发起提问。AI算法需要识别和描述物体或场景，并以自然语言的方式进行回答。

在CVPR 2022上，权威视觉问答竞赛VizWiz提出了新的挑战：AI在回答（Talk）有关的视觉问题时，必须精确地高亮出（Show）相应的视觉证据。

凭借端到端的DaVI（Dual Visual-Linguistic Interaction）视觉语言交互新范式，字节跳动极光-多模态技术团队成功拿下VizWiz 2022 Answer Grounding竞赛的第1名，相关论文也被CVPR 2022 Workshop接收。

详细技术方案见：https://drive.google.com/file/d/11VesB9LcBjjS67iTFSxHmUzQsfWWyuJ6/view

VizWiz 大赛已经举办了4届，主办学者来自卡内基梅隆大学（CMU）、华盛顿大学、科罗拉多大学、微软和苹果，在多模态视觉问答领域有深厚的学术成就和技术积淀。

极光-多模态团队专注于医学人工智能的研究，致力于通过影像、语音、文本等大数据打造业界顶尖人工智能企业医疗平台，团队积极参与前沿技术的研究和落地，参与发表柳叶刀、MICCAI、AAAI等多篇医疗领域和计算机视觉领域的顶会顶刊论文，并获得多项国际医疗AI竞赛冠军。

本届竞赛中，极光-多模态团队与来自国内外知名研究机构和高校的60+团队同台竞技，包括Google DeepMind、纽约大学、浪潮国家重点实验室、西安电子科技大学和特拉华大学等。

夺冠方案的精度相比基线算法提升43.14%，领先在多模领域深耕已久的DeepMind团队3.65%。

‍无障碍出行更安全！AVA比赛夺冠

在基于合成数据的实例分割挑战赛（ Accessibility Vision and Autonomy Challenge ，下文简称AVA) 中，字节跳动智能创作AI平台「Byte-IC-AutoML」团队脱颖而出，成为该比赛唯一赛道的冠军。

详细技术方案见：https://arxiv.org/abs/2206.10845

本届AVA竞赛由波士顿大学(Boston University)和卡耐基梅隆大学(Carnegie Mellon University)联合举办。

竞赛通过渲染引擎得到一个合成的实例分割数据集，其中包含与残疾行人交互的自治系统的数据样例。竞赛目标是为无障碍相关人与物提供目标检测和实例分割的基准和方法。

Byte-IC-AutoML团队提出了一个Parallel Pre-trained Transformers (PPT)框架，框架主要由：1）并行的大规模预训练的Transformers；2）Balance Copy-Paste 数据增强；3）像素级别的非极大值抑制和模型融合三个模块组成，较好地解决了比赛数据集存在的领域泛化、长尾/少样本和分割鲁棒性问题。

目前，城市和交通数据集主要是面向通用场景，只包含正常的交通工具和行人，数据集中缺乏残疾人、行动不便者及其辅助设备的类别，利用当前已有数据集得到的检测模型无法检测出这些人与物体。

夺冠技术方案对目前自动驾驶和街道场景理解有广泛应用：经过这些合成数据得到的模型可以识别出「轮椅」、「在轮椅上的人」、「拄拐杖的人」等少见的类别，不但能更加精细地对人群/物体进行划分, 而且不会错判误判导致场景理解错误。

此外，通过这种合成数据的方式，可以构造出真实世界中比较少见类别的数据，从而训练更加通用，更加完善的目标检测模型。

模拟人脑感知，长视频理解挑战双料冠军

通用事件边界检测（Generic Event Boundary Detection，GEBD）赛道

认知科学研究表明，人类大脑会感知事件的边界，将事件划分若干语义接近的子单元。

在这个背景下，CVPR2022 在长视频理解挑战中提出的GEBD赛道，旨在模拟人脑，感知视频中各事件的变化，将整个视频分割为若干相对独立的，且通用、无分类(taxonomy-free)的事件边界。

凭借自研的SC-Transformer++框架，字节跳动智能创作—视觉智能团队夺得该项赛道冠军。

团队在Structured Context Transformer(SC-Transformer)基础上进行了改进和优化，提出了SC-Transformer++框架来完成这一挑战。

SC-Transformer++主要由五个模块组成：

1）用于视频信息特征提取的Backbone；

2）用于提取视频时序上下文信息的SC-Transformer；

3）用于边界检测的Boundary-Prediction；

4）用于边界帧类别检测的Category-Prediction；

5）用于检测结果融合的Final-Selection。

能够较好地对连续的长视频在时序上建模并捕捉时序上下文信息，并帮助模型更好地理解视频中事件变化的边界，学习各事件复杂的语义。

详细技术方案见：https://arxiv.org/abs/2206.12634

在实际应用中，通用事件边界检测将中长视频拆分为若干短视频片段。

由于许多视频理解相关的算法都是基于短视频片段进行的，将中长视频拆分为若干条较短的片段在视频理解算法链路上具有重要意义。

通用事件边界描述赛道（Generic Event Boundary Captioning Challenge，GEBC）

通用事件边界描述是一项具有挑战性的多模态理解任务，是视频理解更精细化的重要一步。

传统的视频描述的目的是理解整个视频片段，而通用事件边界描述只关注视频中瞬间触发场景状态变化的时刻，旨在自动生成给定视频边界时刻的状态、边界时刻之前的状态和之后的状态的描述。

智能创作—视觉智能团队提出了一个Dual-Stream Transformer(DST)框架，并夺得竞赛冠军。

DST主要由多模态特征提取模块和多模态特征融合编码模块两个部分组成。

多模态特征提取模块

为了得到更好的视觉特征表示，团队使用了三种不同的特征提取器提取不同维度的视觉特征：

（1）使用在4亿「图像-文本」对上预训练过的CLIP提取视频的外观特征；

（2）使用在Kinetics400数据集上预训练过的VideoSwin提取视频的运动特征；

（3）使用在Visual Genome数据集上预训练过的Faster R-CNN提取视频的区域特征。

同时，使用在Wikipedia上预训练过的Glove模型对文本进行编码，这里的文本主要包含视频的类别信息和视频的描述。

多模态特征融合编码模块

为了实现不同模态信息的充分融合，团队设计了一个基于Transformer的双分支网络结构，一个分支的输入为视频的外观特征、运动特征以及文本，另一个分支的输入为区域特征和文本。

网络结构中的自注意力模块负责同一分支中不同特征的特征对齐，交叉注意力模块负责不同分支的特征之间的特征交互。

最后，两个分支都输出各自的预测文本，并通过交叉熵损失函数完成模型训练。

图片恢复技术哪家强，NTIRE ESR挑战赛主赛道夺冠

New Trends in Image Restoration and Enhancement（NTIRE）是近年来计算机图像恢复领域最具影响力的全球性赛事。

智能创作音视频团队凭借自研的RLFN算法从43支队伍中脱颖而出，拿下NTIRE 2022 Challenge on Efficient Super-Resolution（ESR）主赛道冠军，在子赛道Overall Performance也位列第二。

竞赛旨在设计一种网络：在维持Peak Signal-to-Noise Ratio（PSNR ）指标与Baseline相当水平的同时（PSNR在验证集保持29.00dB ），从运行时间、参数量、FLOPs、Activations以及内存占用等方面进行至少一个维度的优化。

其任务以4倍超分为基准，验证集以及测试集均为DIV2K，下采样方式为bicubic。

团队在基于Convolutional Neural Network（CNN）的RFDN结构基础上，提出了一个更高效的网络结构RLFN，在推理速度和效果之间取得良好的平衡，并且重新思考contrastive loss的使用，设计了一个更适合超分任务的浅层特征提取器，此外还提出了更有效的多阶段warm-start训练策略。

详细技术方案见：http://arxiv.org/abs/2205.07514

智能创作是字节跳动的多媒体创新科技研究所和综合型服务商。覆盖了计算机视觉、图形学、语音、拍摄编辑、特效、客户端、AI平台、服务端工程等技术领域，在部门内部实现了前沿算法-工程系统-产品全链路的闭环，旨在以多种形式向公司内部各业务线以及外部合作客户提供业界最前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

团队技术能力正通过火山引擎对外开放。

基于深度学习的图像压缩大赛：高、低码率双赛道夺冠

（Challenge on Learned Image Compression ，CLIC）

随着以深度学习为代表的新一代人工智能技术不断取得突破，基于深度学习的图像视频压缩技术被视为超越传统压缩技术能力极限的明日之星。

CLIC旨在鼓励基于深度学习的图像视频压缩技术的研究，展示深度学习技术在图像视频压缩领域的最新进展，为深度学习技术在压缩领域的进一步探索指明方向。

火山引擎多媒体实验室团队的参赛平台Neutron Star（中子星）在高码率视频压缩和低码率视频压缩两个赛道，主客观指标均以绝对优势夺冠。

另外，Neutron Star在图像赛道以峰值信噪比（PSNR）计算的客观指标排名第一。

火山引擎Neutron Star平台有机融合了传统压缩技术与深度学习压缩技术。

针对传统编码模块，火山引擎加入了非对称四叉树划分、历史仿射模型继承等创新技术；针对智能编码模块，引入了基于深度学习的环路滤波、自适应变采样等技术。

通用仿真测试结果表明，相比最新的视频编码标准H.266/VVC，火山引擎Neutron Star平台对编码效率的提升平均超过28%。

详细技术方案见：https://openaccess.thecvf.com/content/CVPR2022W/CLIC/html/Li_A_Neural-Network_Enhanced_Video_Coding_Framework_Beyond_VVC_CVPRW_2022_paper.html

火山引擎多媒体实验室致力于研究、探索多媒体领域的前沿技术，参与国际、国内多媒体方向的标准化工作，为多媒体内容分析、处理、压缩、传输、创新交互等领域提供软硬件解决方案，众多创新算法已经广泛应用在抖音、西瓜视频等产品的点播、直播、实时通信、图片等多媒体业务，并向火山引擎的企业级客户提供技术服务。

火山引擎是字节跳动旗下的云服务平台，将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业，提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务，帮助企业在数字化升级中实现持续增长。