CVPR 2021大奖公布！何恺明获最佳论文提名，代码已开源！-技术圈

新智元报道

来源：CVPR2021

编辑：小匀，LQ

【新智元导读】昨晚，CV界三大顶会之一的2021CVPR在clubhouse拉开了帷幕。今年，会议收到了21000名作者的7000篇投稿，经过7400名审稿人和280名区域主席的审查，最终有1600篇论文被接收，接收率约0.24。其中，何恺明团队论文获得了「最佳论文提名」。

CVPR 2021 来了！

推特上，有学者打趣说，CV论文可以分为这几类：「只想混文凭」、「教电脑生成更多猫的照片」、「ImageNet上实验结果提升0.1%！」、「手握超酷数据集但并不打算公开」、「3年过去了，代码仍在赶来的路上」、「实验证明还是老baseline性能更牛」、「我们的数据集更大！」、「研究范围超广，无他，我们有钱」、「花钱多，结果好」......

仅为调侃，请勿对号入座。

图源：Jia-Bin Huang的推特

不过，言归正传，让我们来看看今年被CVPR选中的都有哪些幸运论文。

2021 CVPR 论文奖

最佳论文奖（Best Paper）

今年的最佳论文是马克斯·普朗克智能系统研究所和蒂宾根大学团队的Michael Niemeyer, Andreas Geiger，他们的论文是

GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields（GIRAFFE：将场景表现为组合生成的神经特征场）

https://arxiv.org/abs/2011.12100

论文简介：

深度生成模型可以在高分辨率下进行逼真的图像合成。但对于许多应用来说，这还不够：内容创作还需要可控。虽然最近有几项工作研究了如何分解数据中的潜在变化因素，但它们大多在二维中操作，忽略了我们的世界是三维的。此外，只有少数作品考虑到了场景的组成性质。我们的关键假设是，将组合式三维场景表示纳入生成模型，可以使图像合成更加可控。将场景表示为生成性神经特征场，使我们能够从背景中分离出一个或多个物体，以及单个物体的形状和外观，同时无需任何额外的监督就能从非结构化和unposed的图像集中学习。将这种场景表示与神经渲染管道结合起来，可以产生一个快速而真实的图像合成模型。正如我们的实验所证明的那样，我们的模型能够分解单个物体，并允许在场景中平移和旋转它们，还可以改变摄像机的姿势。

最佳论文荣誉提名（Best Paper Honorable Mentions）

何恺明和Xinlei Chen的论文Exploring Simple Siamese Representation Learning（探索简单的连体表征学习）获得了最佳论文提名。

https://arxiv.org/abs/2011.10566

论文主要研究了：

「连体网络」（Siamese networks）已经成为最近各种无监督视觉表征学习模型中的一种常见结构。这些模型最大限度地提高了一个图像的两个增量之间的相似性，但必须符合某些条件以避免collapse的解决方案。在本文中，我们报告了令人惊讶的经验结果，即简单的连体网络即使不使用以下任何一种情况也能学习有意义的表征。(i) 负样本对，(ii) 大batch，(iii) 动量编码器。我们的实验表明，对于损失和结构来说，collapse的解决方案确实存在，但stop-gradient操作在防止collapse方面发挥了重要作用。我们提供了一个关于stop-gradient含义的假设，并进一步展示了验证该假设的概念验证实验。我们的「SimSiam 」方法在ImageNet和下游任务中取得了有竞争力的结果。我们希望这个简单的基线能促使人们重新思考连体结构在无监督表征学习中的作用。

代码已开源 https://github.com/facebookresearch/simsiam

另一篇最佳论文提名是明尼苏达大学团队Yasamin Jafarian, Hyun Soo Park的

Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos

https://arxiv.org/abs/2103.03319

最佳学生论文奖（Best Student Paper）

Task Programming: Learning Data Efficient Behavior Representations（任务编程：学习数据有效的行为表征）

作者团队来自加州理工和西北大学——Jennifer J. Sun, Ann Kennedy, Eric Zhan, David J. Anderson, Yisong Yue, Pietro Perona

https://openaccess.thecvf.com/content/CVPR2021/html/Sun_Task_Programming_Learning_Data_Efficient_Behavior_Representations_CVPR_2021_paper.html

论文简介：

专门的领域知识对于准确注释用于深度分析训练集来说往往是必要的，但从领域专家那里获得这些知识可能会很麻烦，而且耗时。这个问题在自动行为分析（automated behavior analysis）中非常突出，在自动行为分析中，从视频跟踪数据中检测出代理的运动或感兴趣的行动。为了减少注释工作，我们提出了TREBA：一种基于多任务自监督学习的学习注释-样本高效轨迹嵌入（annotation-sample efficient trajectory embedding）的方法，用于行为分析。我们的方法中的任务可以由领域专家通过我们称之为「任务编程」（task programming）的过程进行有效设计，该过程使用程序对领域专家的结构化知识进行明确编码。通过用数据注释时间换取少量编程任务的构建，可以减少领域专家的总工作量。我们使用行为神经科学的数据来评估这种trade-off，在这些数据中，专门的领域知识被用来识别行为。我们在两个领域的三个数据集中展示了实验结果：小鼠和果蝇。与最先进的特征相比，使用TREBA的嵌入，我们将注释负担减少了「10倍」，然而并不影响准确性。因此，我们的结果表明，任务编程和自我监督可以成为减少领域专家注释工作的有效途径。

最佳学生论文荣誉提名（Best Student Paper Honorable Mentions）

获得「最佳学生论文」提名的有三篇

Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling（少即是多：通过稀疏取样进行视频和语言学习的ClipBERT）

作者团队来自北卡罗来纳大学教堂山分校和Microsoft Dynamics 365 AI Research的Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu

https://openaccess.thecvf.com/content/CVPR2021/html/Lei_Less_Is_More_ClipBERT_for_Video-and-Language_Learning_via_Sparse_Sampling_CVPR_2021_paper.html

Binary TTC: A Temporal Geofence for Autonomous Navigation（二进制TTC：用于自主导航的时间地理围栏）

作者团队来自英伟达和加州大学圣巴巴拉分校的Abhishek Badki, Orazio Gallo, Jan Kautz, Pradeep Sen

https://openaccess.thecvf.com/content/CVPR2021/html/Badki_Binary_TTC_A_Temporal_Geofence_for_Autonomous_Navigation_CVPR_2021_paper.html

Real-Time High-Resolution Background Matting（实时高分辨率的背景消隐）

作者团队来自华盛顿大学的Shanchuan Lin, Andrey Ryabtsev, Soumyadip Sengupta, Brian Curless, Steve Seitz, Ira Kemelmacher-Shlizerman

https://openaccess.thecvf.com/content/CVPR2021/papers/Lin_Real-Time_High-Resolution_Background_Matting_CVPR_2021_paper.pdf

最佳论文评选委员会

以上最佳（学生）论文及提名由以下委员会评选：Deva Ramanan (主席)，Lourdes Agapito, Zeynep Akata, Karteek Alahari, Xilin Chen, Emily Denton, Piotr Dollar, Ivan Laptev, Kyoung Mu Lee

其中，中科院计算所视觉信息处理与学习组的陈熙霖博士是委员会成员。

陈熙霖博士，研究员，ACM Fellow, IEEE Fellow, IAPR Fellow, 中国计算机学会会士，国家杰出青年基金获得者。主要研究领域为计算机视觉、模式识别、多媒体技术以及多模式人机接口。先后主持多项自然科学基金重大、重点项目、973计划课题等项目的研究。

曾任IEEE Trans. on Image Processing和IEEE Trans. on Multimedia的Associate Editor，目前是Journal of Visual Communication and Image Representation的Associate Editor、计算机学报副主编、人工智能与模式识别副主编，担任过FG2013 / FG 2018 General Chair以及CVPR 2017 / 2019 / 2020， ICCV 2019等的Area Chair。

陈熙霖博士先后获得国家自然科学二等奖1项，国家科技进步二等奖4项，省部级科技进步奖九项。合作出版专著1本，在国内外重要刊物和会议上发表论文200多篇。

PAMITC 奖（PAMITC AWARDS）

除了最佳（学生）论文奖外，还有以下几项大奖：

朗格-希金斯奖（Longuet-Higgins Prize）

该奖项以理论化学家和认知科学家H. Christopher Longuet-Higgins的名字命名，表彰十年前对计算机视觉研究产生重大影响的CVPR 论文。