CVPR2021谷歌发表超70篇论文，第一作者半数为华人！-技术圈

新智元报道

来源：Google AI Blog

编辑：LRS

【新智元导读】Google今年在CVPR录取的文章有超过70篇，其中超过半数的第一作者都是华人！

近日，CV界三大顶会之一的2021CVPR在clubhouse拉开了帷幕。今年，会议收到了21000名作者的7000篇投稿，经过7400名审稿人和280名区域主席的审查，最终有1600篇论文被接收，接收率约24%。其中，何恺明团队论文获得了「最佳论文提名」。

作为计算机视觉研究领域的领导者和赞助商，Google在CVPR 2021中共被接受了超70篇论文，并组织和参与了多个研讨会。

详细的论文的列表可以在参考链接中找到，其中华人为第一作者的论文有将近34，占了半数。

下面介绍几篇在Google的华人的相关工作。

Cross-Modal Contrastive Learning for Text-to-Image Generation

《跨模态对比学习在文本图像生成中的应用》的第一作者为Han Zhang，目前是谷歌大脑的一名研究科学家。2018年，我在罗格斯大学获得了计算机科学的博士学位，导师是Dimitris Metaxas，研究兴趣是计算机视觉、深度学习和医学图像分析，目前的研究主要集中在生成模型、半监督学习/语言和视觉-语言交互上。

文图合成系统的输出应该是连贯、清晰、逼真的场景，并且与文本描述的语义保真度高。我们的跨模态对比生成对抗网络(XMC-GAN)通过最大化图像和文本之间的互信息来解决这一挑战。它通过多重对比损失来捕捉情态间和情态内对应。XMC-GAN 使用了一个强有力的文本图像对应的注意自调制发生器和一个对比鉴别器，它既是对比学习的批评者，又是对比学习的特征编码器。质量 XMC-GAN 的输出是一个重大的步骤，从以前的模型，因为我们显示在三个具有挑战性的数据集。在 MS-COCO 上，XMC-GAN 不仅将最先进的 FID 从24.70提高到9.33，而且更重要的是，与其他三个最新型号相比，人们更喜欢 XMC-GAN 的图像质量提高了77.3，图文对齐提高了74.1。XMC-GAN 还概括了具有挑战性的本地化叙事数据集(其中有更长的，更详细的描述) ，将现有的 FID 从48.70提高到14.12。最后，我们对 XMC-GAN 进行了具有挑战性的开放图像数据的训练和评估，建立了一个强大的基准 FID 得分为26.91。

Ranking Neural Checkpoints

《神经检查点排序》的第一作者是李延东，是谷歌的一名工程师/研究员。主要研究领域包括机器学习和计算机视觉。我最近的作品主要研究目标检测，深层神经网络的对抗性例子的分布，多任务学习，视觉问题回答和分割，动作识别和视频摘要。

本文研究了多个预训练的深层神经网络(dnn)的检查点排序问题，将学习过程转移到下游任务。由于 dnn 的广泛使用，我们可以很容易地从各种来源收集数百个检查站。其中哪一个最适合我们的下游任务？为了彻底回答这个问题，我们建立了一个神经检查点排序基准(NeuCRaB) ，并研究了一些直观的排序方法。这些度量是通用的，应用于不同输出类型的检查点，而不知道检查点如何针对哪个数据集进行预训练。它们还会导致较低的计算成本，从而使它们具有实际意义。我们的研究结果表明，检查点提取的特征线性可分的是可转移性的一个强有力的指标。我们还得出了一个新的排名指标，NLEEP，这个指标在实验中表现最好。

HDMapGen: A Hierarchical Graph Generative Model of High Definition Maps

Lu Mi是麻省理工计算机科学与人工智能实验室(CSAIL)的四年级博士生，在计算连接组工作。导师是麻省理工学院(MIT)教授Nir Shavit，哈佛大学(Harvard)教授Aravinthan d.t. Samuel和Jeff w. Lichtman。2020年在 Waymo 做过实习研究，2021年在Google Research实习。2019年我在麻省理工大学 EECS 获得了硕士学位，2017年在清华获得了学士学位。研究兴趣是将深度学习应用于神经科学和计算机视觉。特别是在连接体的自动获取、重构、建模和图形分析的流水线研究方面进行了深入的研究。与此同时，我对开发基于多模态和真实世界数据的生成模型很感兴趣。

高清地图是一种具有精确车道定义和丰富交通语义的地图规则。它们对于自主驾驶系统的几个关键阶段至关重要，包括运动预测和控制计划。然而，现实世界中只有少量的道路拓扑和几何结构限制了我们测试自动驱动堆栈以推广到新的未知场景的能力。为了解决这个问题，我们引入了一个新的具有挑战性的任务来生成高清地图。在这项工作中，我们探讨了几种自回归模型使用不同的数据表示，包括序列，平原图和层次图。我们建议HDMapGen具有生成能力的层次图生成模型高质量和多样化的高清地图通过粗到细接近。在Argoverse数据集和内部数据集上的实验表明，HDMapGen的性能明显优于基线方法。此外，我们证明HDMapGen具有很高的可扩展性和效率。

Repopulating Street Scenes

Yiufan Wang是华盛顿大学三年级的博士生，由布莱恩 · 柯里斯和史蒂夫 · 塞茨提供。获得了上海科技大学的学士学位，与 Ma Yi 和 Manolis Tsakiris 一起工作。还在字节跳动人工智能实验室和谷歌研究所呆过一段时间。

提出了一个框架，自动重新配置的街道场景图像填充，人口减少，或重新填充他们的对象，如行人或车辆。这种方法的应用包括匿名化图像以增强隐私，为感知任务生成数据增强，比如自动驾驶，以及组合场景以实现某种氛围，比如清晨的空街。在技术层面上，我们的工作有三个主要贡献: (1)物体图像的清除方法，(2)从单幅图像估计太阳方向的方法，(3)在场景中组合物体的方法，尊重场景几何学和光照。通过创造性地使用大量街道场景的短图像脉冲，每个组件都从带有最少地面真实性注释的数据中学习。我们展示了令人信服的结果在一系列的街道场景和说明潜在的应用。

Complete & Label: A Domain Adaptation Approach to Semantic Segmentation of LiDAR Point Clouds 完全和标签: 一种面向 LiDAR 点云语义分割的领域自适应方法

Complete & Label: A Domain Adaptation Approach to Semantic Segmentation of LiDAR Point Clouds

弋力是跨学科信息科学研究所助理教授，在斯坦福大学获得了博士学位。在加入斯坦福大学之前，清华大学获得了电子工程学士学位。最近的研究兴趣集中在三维知觉和形状分析，目标是装备机器人智能体的理解能力和与三维世界的交互能力。

针对三维点云的语义标注问题，研究了一个无监督的域自适应问题，重点研究了不同 LiDAR 传感器引起的域自适应问题。基于稀疏三维点云从三维表面采样的观察，我们采用完全标记方法恢复下垫面，然后将其传递到分割网络中。具体来说，我们设计了一个稀疏体素完成网络(SVCN) ，以完成一个稀疏点云的三维表面。与语义标签不同，为 SVCN 获取训练对不需要手动标记。我们还引入了局部对抗学习来建立表面优先模型。恢复的三维表面作为一个规范的领域，语义标签可以跨不同的 LiDAR 传感器传输。实验结果表明，本文提出的方法比以往的域自适应方法具有更好的性能，其性能提高了8.2-36.6%

参考资料：

https://ai.googleblog.com/2021/06/google-at-cvpr-2021.html

-往期精彩-