AI论文起名之殇：标题党 is All You Need！-技术圈

点蓝色字关注“机器学习算法工程师”

设为星标，干货直达！

作者 | 耳洞打三金、淼兄

大家好我是三金，今天这篇文章的正文已经写好了，又到了起标题的环节了。

唉，好烦啊，每次我写完文章都要为怎么起标题而发愁，生怕吸引不了读者点击进而导致阅读量惨淡。

于是我绞尽脑汁给本文拟好了四个标题发到工作群里，想让编辑部的同事帮忙参考一下，毕竟我这次起的是那么的好，我很有自信。

果然，老板看了我起的标题之后拍案叫好，连忙表示要给我“升职加薪”，把我都给开心哭了。

标题党真是太可怕了，没办法啊，媒体行业现在也是卷的厉害。

好了，现在说回本文，其实本文讨论的就是和标题党相关的话题。

事情是这样的，编辑部的同事淼兄今天在Reddit上刷到了一个热门帖子，帖子里面正在讨论机器学习社区中的论文标题党现象。

发帖的网友yusuf-bengio表示：

还是想念以前那个朴实无华的年代，那时候每个人都会老老实实地写标题，清楚地写明论文的主要研究结果。

yusuf-bengio还将AI圈无人不知无人不晓的GPT-3的原论文《Language Models are Few-Shot Learners》作为良好范例，表示这个标题能很好地指出“只要给定一个大模型和大量的数据，Language Models are Few-Shot Learners”（当然，还是得看看摘要，但至少有说明研究结果）。

然而如今时代变了，大量的论文标题党充斥着整个AI社区，几乎有一百万篇（夸张一下）标题为“XXX is all you need”的论文，已经达到了泛滥的程度。

此外，还有另外一些标题党，只描述方法而不提结果。例如《Reinforcement Learning with Bayesian Kernel Latent Meanfield Priors》（这是编造的标题）。

yusuf-bengio表示，这样的标题自然会比“XXX is all you need”要好一些，但是用“研究者在做的事情”取代了“研究者取得的成果”。（这样把灌水的论文发出去时没那么虚？）

也就是说，像《Bayesian Kernel Latent Meanfield Priors Improve Learning in Hard-to-explore Reinforcement Learning Environments》这样的标题会更好。

帖子下方的网友也纷纷附和，其中一位网友侃道：

以后可能会出现
《我尝试了这个新的目标函数，效果令人难以置信！》、
《我的天，这个新方法会让你大吃一惊！》等等类似自媒体标题党的标题。

随即，另一位网友啧啧摇头表示道，Too yong too simple，这种标题已经有了：《我们使用神经网络来检测Clickbaits：接下来发生的事情让我怀疑人生！》。

网友Duranium_alloy则认为：

“这样的标题第一次出现还可以接受，但多了就令人厌烦了。第一次出现时一般是由于论文本身的开创性，但如今却成了很多非开创性的增量研究鱼目混珠的手段。那个，我现在也在考虑使用‘The Importance of Being X’这样的标题，大家有尝试过吗？”（为什么要泄露大招呢？）

网友svantevid对“标题党泛滥”的观点表示同意，同时也指出：

“令人遗憾的是，‘醒目’标题确实是吸引注意力的有效方式。我可以接受的折衷方案是，一半标题党，一半严肃标题。例如，‘Mind the GAP: A Balanced Corpus of Gendered Ambiguous Pronouns’。或者，按照华盛顿大学语言学教授Emily M. Bender的说法，使用不常见的双关语，也是一种选择。”

网友GalacticGlum吐槽了一把“XXX is all you need”标题党：“我仍然不理解这是怎么流行起来的，这甚至还不是很好的点击诱饵。除了由于论文受欢迎而使人们想着蹭“Attention Is All You Need”的热度之外，标题真的没啥信息量，我真的不明白。”

网友N的观点是：标题党可怕，但是因为标题太平淡而使得论文不被注意到也是一种可惜（毕竟这是一个AI论文泛滥的时代），平衡永远是最好的。

网友N同时还指出，好的文献检索一般还会关注摘要部分和作者提供的关键字，而不仅是标题。因此，谷歌搜索Transformer仍然给出“Attention is all you need”论文。“当然，与典型的发布者数据库相比，Google做的索引要多得多，但这是相同的概念。”

实际上，“XXX is all you need”标题党鼻祖“Attention is all you need”的这个标题起的确实起的有点标题党，让三金我都自愧不如。

这篇论文提出了Transformer架构，Transformer只用了注意力机制，而没有使用常规的循环连接和卷积操作。这种研究思路在当时确实是突破性的，但论文中也仅将其用于机器翻译任务，并展示了一定程度的多任务泛化性能。“all you need”在严格意义上有表示万能模型的意思，而“没有免费午餐定理”已经否定了万能模型的存在。

什么是“没有免费午餐定理”？

以下是周志华教授在西瓜书中对该定理的描述：

对于一个学习算法A，若它在某些问题上比学习算法B好，则必然存在另一些问题，在那里B比A好。

周志华教授在西瓜书中为没有免费午餐定理提供了一段小学三年级都能看懂的证明：

如今看来，“all you need”似乎有种预言的意味。

基于Transformer的BERT模型在11种NLP任务上达到SOTA性能，同样基于Transformer的GPT系列更是让人怀疑AI已悄悄产生了意识。Transformer甚至还跳出了NLP领域，闯入CV领域，秒杀CNN。

就在今天，三金我在推特上看到了一篇Transformer在多模态任务学习上的应用，题为《Transformer is All You Need：Multimodal Multitask Learning with a Unified Transformer》的论文，作者还是一位伯克利博士毕业的华人大神，至于这篇论文的工作好坏，我们今天先不谈。

我看到伦敦大学城市学院计算机科学教授Artur对此评价道：“以我的经验来看，你或许总是需要一些别的东西.......”

这位教授估计想要表述的也是没有免费午餐定理：

最近Transformer似乎还应用到了GAN领域，那么请问，Transformer真的万能了吗？

当然不是，这个架构并没有逃出“没有免费午餐定理”的支配。

本质上，注意力机制的归纳偏置相比于循环连接、卷积操作而言更弱。所以，这类架构适用于更广泛的任务，但相应地，训练数据量和计算量也大得多。例如，从千亿级参数的GPT-3，再到谷歌近期提出的万亿级参数模型Switch Transformer，都是基于Transformer的模型，其训练成本也只有巨头企业负担得起。

这其实意味着，对于某些特定任务，还是RNN或者CNN的效率会更高。例如，一些将Transformer应用于CV任务的架构，也会在模型底层（也就是特征提取层）采用CNN架构，然后在模型顶层采用Transformer架构，以捕捉CNN不擅长学习的长程依赖关系。

再进一步来看，Transformer相比于通用近似定理中的“单隐藏层、无限宽神经网络”又有着更强的归纳偏置。所以它终归只能适应某些特定类型的任务，只是我们目前还没有探索尽其可能性。

如果它恰好能适应所有人类应该面对的问题，那自然最好不过，到时候就会出现这样一篇论文：“Attention is all human need”（开个玩笑）。如今，人工智能行业特别是工业界正在以牺牲效率的方式寻找Transformer的边界。科学支持极端主义的行为艺术，但回归人间时，还是效率为王。

到这里，三金我还是比较固执，难道真的没有什么东西是 all you need的吗？

或许有一个，它可能是《Computer is all you need》，或许还可能是《Money is all you need 》。

钱真的那么重要吗？

那是自然。大家都知道的，近些年人工智能真正开始在全球大众范围内火爆起来其实是AlphaGo大战李世石，经此一役，圈内人也都知道了谷歌（DeepMind）的有钱任性，在算力和服务器上的投入真的是前所未有。

而近两年来以谷歌、DeepMind、OpenAI为代表的大型研究机构推出的BERT、GPT-3、AlphaGo、DALL.E等人工智能模型更是大大拉高了AI研究的门槛，BERT系列模型还好说，大家都还玩得起，但是像GPT-3和DALL.E这样的模型，对不起，大家只能望而生叹，所幸的是大家只有避开这几个需要矿的领域就好，AI研究中还是有大把的领域是不依赖算力的。

接下来进入轻松时刻，三金带大家看看最近一年来被AI顶会接收的论文中还有哪些标题党，下面还是先以《 XXX is All You Need 》为例。

在被NeurIPS 2020接收的论文有两篇：