如何看待swin transformer成为ICCV2021的 best paper？-技术圈

胡瀚（微软亚研视觉计算组研究员）回答：

作为作者之一来答一波

有生之年从没想过有机会解锁马尔奖，感觉自己很幸运！坦率讲，这次的奖项应该共同属于更早以及同期一起推进Transformer在CV中基本建模的很多工作，Swin Transformer很幸运被选中了作为其中的代表，感谢&感恩！

借此机会，再次推荐大家在CV中拥抱Transformer，现在NLP、CV和众多AI领域在建模和学习上越来越近，我认为这是一个好事情，如我们在论文里所说：希望Swin Transformer在各种视觉任务上的强大表现，能鼓励CV community拥抱Transformer以及视觉和语言更统一的建模。我们相信，这也会让我们离AGI更近一点点（尽管路途依旧遥远）。

另一方面，Transformer来自于NLP，不得不说NLP过去几年引领了整个AI领域，他们过去几年的思考非常值得我们学习。当然，我们也不用妄自菲薄，事实上更早前的很多年里，更多的时候是CV在引领整个领域，包括预训练范式的提出和广泛应用、residual连接、normalization层等等很多技术都来自CV领域。现在正是我们CV领域的研究者们打开思路，想的更远更超前一些的时候。我对此很有信心，CV领域非常open-minded，能接受很多不同的方向以及风格迥异的作品，我相信这也是CV领域过去能长期保持活力和越来越壮大的重要原因。我也很期待我们CV领域的研究员们将来和NLP以及其它AI领域的朋友们一起前行，让AI变得更好，对整个社会产生更多有益的影响！

这里还分享一下论文背后的几个小故事（共一作者已经出现在很多地方了，因此我这里会特别涉及其他几位作者非常关键的贡献）：

1）关于名字。Arxiv放第一版时忘记了注明名字的由来，后来有朋友问起来才意识到。Swin是Shifted window的缩写，这也是投稿前最后一天才确定下来的名字。很长一段时间我们在考虑是否以hierarchical（H）作为名字，但最后觉得shifted window是这篇论文最有意思的一个设计，也是实现局部性和层次性的关键所在，于是决定在方法的名字里强调这个技术。Swin这个名字是合作者郭百宁的贡献。

2） Shifted window这个idea的由来和解释。其实决定做层次化Transformer的时候，几乎一瞬间就想到了这样一个设计。主要是因为有两年前在ICCV 2019上我们做的局部关系网络（Local Relation Networks）的基础，当时尝试了第一个完全基于自注意力而无需卷积的骨干网络，但发现基于滑动窗口的自注意单元对GPU显存访问不太友好，计算速度较慢不太实用，因此我们直接跳过了这个选项尝试了不重叠窗口的设计。而移位的思想则来自我4年前另一个没有发表工作的想法（当时因为做的不够solid所以放弃了），想不到在这里产生了妙用。而关于速度快的精确解释主要归功于合作者张拯，他提出了共享key集合是导致显存访问友好的关键所在。

3）这篇论文更长久的贡献可能是让领域普遍意识到Transformer可以在广泛的视觉问题中超越CNN，以及为下游密集任务提供一个还不错的训练和测试菜谱（recipe）。在投稿前最后一个多月我们的主要精力就在于此，希望调一个Transformer时代靠谱的菜谱来。这方面韦毅轩做了大量贡献。说实话学生们被我们push得是比较狠的，这里表示抱歉，也要特别感谢所有学生们的理解。另外，毅轩在这个项目之前是和组里另一个同学姚朱亮一起在做和CLIP几乎一样的方法，做着做着就看到CLIP出来了。当然我们的目标有所不同，所以按照我们当时认知的高度，即使在某些场合证明了效果，也是做不出CLIP来的。

4）在MSRA这几年，向代季峰、危夷晨、Steve Lin，以及读恺明大神和孙老大的文章学到了很多做问题的方式和写作方面的技巧：季峰的实验设计和作图，夷晨精密的行文逻辑，恺明讲story的能力，Steve Lin逻辑和语言上的gift，对我帮助很大很大。尽管如此，Swin的初稿经过Steve Lin和百宁加工后，还是焕然一新。

MSRA有两点我觉得是特别unique的，一个是自由的学术氛围，二是很好的传承。我个人就非常受益于此，向很多前辈们学习，得到了很多成长。也希望能将这些好的方法论传承下去，我想这也是MSRA能长青的重要原因之一。也希望MSRA能为公司，以及国内的工业和科研界培养越来越多的人才。

最后，还是例行给大家安利下MSRA的研究员职位以及我们的联合培养博士生项目，这些联培项目的博士生们在读博期间普遍都有非常好的成长，几位合作的联培博士同学都已经具备了很强的潜力，尽管还非常年轻，例如刘泽在中科大刚开始博三，宇桐和毅轩都分别是西交和清华博二的同学。对于有意联合培养项目的本科生，或者有意和微软亚洲研究院建立联培合作项目的学校，可以联系我或者相关的同事哈。

曹越（清华大学软件工程博士）回答：

作为作者之一答一波。

首先特别感谢所有朋友的鼓励和批评，我认真看了每一条回复和评论，对所有内容我们都会照单全收，从中吸取养分，提升自己。

在技术层面，其他很多回答、还有之前的问题中已经讨论了很多。在这里，我想提供一个不同的角度，主要是讲讲从我来MSRA这三四年间，有哪些东西让我受益匪浅、飞速提升，从而有机会做出更好的工作：

1. 传承。从孙老大、恺明、夷晨、季峰、祥雨、锡洲等等，到胡瀚、张拯和我，在组内传承的是科研taste的培养和科研素质的训练，包括如何产生一个好idea并把它做work、内部讨论时平等激烈乃至对工作challenge到极致、对实验solid程度的近乎苛求、对写作逻辑与细节的把控和质量的要求等等。这个过程像是model distillation，但因为每个student model的架构不同（每个人天赋不同），最终会衍生出不同的版本，每个人擅长的地方也不全相同。因为这个传承没有断掉，使得我们可以再次得到充分的科研训练，受益匪浅、提升巨大。

2. hands on和参与度。即较为senior的科研人员依然能够依然非常hands on和专注地做科研工作，从想idea、写code、对实验的推进到论文的写作，参与度极高，这对提高文章的质量至关重要。就像胡瀚在回答中提及的，Swin里的每个作者都对文章有非常重要的贡献，还有比如19年胡瀚博士毕业已经第5年，依然独自完成了local relation block的c++ kernel实现，听说恺明、祥雨现如今还在自己写code等等。如果要追求工作的质量，有很强科研能力的人充分的参与，是不可或缺的一个部分，我们也因此受益。

3. 自由平等的氛围和鼓励合作。同一组里，经验丰富的研究员们和学生们亲密无间的合作，使得skill set可以互相补足，对工作质量也是有质的提升。俗话说三个臭皮匠，顶个诸葛亮，如果有三个互相信任、互相支持、心无杂念且目标明确的诸葛亮，可以做的事情可想而知。除此之外，和其他方向的很多同事交流的过程中能学到非常多东西，这就像是在做model ensemble的时候，不同模型在同样强的情况下，差异越大效果越好。

最后希望未来华人在计算机视觉、泛人工智能、乃至整个科学领域都能够有越来越多和越来越高的成就，共勉。

来源：知乎

本文仅作学术分享，著作权归属原作者，侵删

https://www.zhihu.com/question/492057377

——The End——