万字论述：审视AI界的“SOTA成瘾”-技术圈

大数据文摘授权转载自数据实战派

SOTA，State Of The Art，是一个AI界家喻户晓的说法。

这个词意味着某个模型在某些具体任务中达到了“目前最佳水平”。许多AI研究都在追逐最先进的 (SOTA) 数字，而且有理由相信，未来还会有更多的论文以此为出发点。

这个领域的大部分从业者对这种风潮已习以为常，但在AI学者Kenneth Ward Church看来，对SOTA的一味推崇并不全是“奖赏”，也是有相应代价的。

在他与Valia Kordoni合著的文章Emerging Trends: SOTA-Chasing中，他们详细地阐述了追逐SOTA可能造成的三种负面效应：

1.排行榜强调竞争，这分散了人们对该领域更重要机遇的注意力；

2.对SOTA的追逐阻碍了语言学、词典编纂、心理学等领域的研究人员进行跨学科合作；

3.一些声称SOTA的成果可能会让业界产生不切实际的期望，这可能会导致又一个人工智能的寒冬。

“数据实战派”将其中的重点论述部分整理如下：

激励和合作：排行榜的“双面效应”

你追求的度量是什么，那么你得到的就会是什么，这是老生常谈了。

排行榜强调的是赢家和输家。如果你用谷歌搜索"meme: mine is bigger than yours"，你会发现一堆粗鲁的、幼稚的、甚至是危险的图片。

TREC(文本检索会议)强调合作竞争，而不只是竞争。Voorhees在SIGIR-2020的主题演讲中，以及在ACL-2021 benchmarking研讨会上的受邀演讲中指出:

l 竞争可能会给你更大的蛋糕……

l ……然而合作会让整个蛋糕变大

TREC参与者被要求签署一份协议，明令禁止宣传TREC的结果。这项禁令在TREC成立25周年的录像中被多次提及。尽管参与者们很欣赏这一原则，但吹嘘的诱惑却难以抗拒。

Voorhees提出了一个重要的观点。TREC深度学习方面的概述论文，例如(Craswell et al. 2020)，其中的方法分为三种类型:nnlm(神经网络语言模型，如BERT)、nn(其他类型的神经网络)和trad(传统方法)。图1显示了nnlm的性能最好，而trad的性能最差。通过这种方式，合作竞争产生了重要的洞察力，能够以有意义的方式推动领域的发展，这与强调竞争的排行榜不同，而更像是我的排行榜比你的排行榜更重要。

图1. ACL-2021的默认概念

作为合作竞争和竞争的第二个例子，考虑MRQA (Machine Reading for Question answer)。对论文的呼吁强调了许多令人钦佩的目标，如域转移、可解释性、健壮性和错误分析，但不幸的是，公开任务以排行榜为导向，并祝贺获奖者，而没有提到更令人钦佩的目标。

有了稍微不同的设计,公开任务可以为域转移提供一些有趣的见解。表1列出了18个QA基准测试,分成三组6个基准测试。这三个组分别用于训练、验证和测试。假设我们没有使用这组火车/验证/测试分割，我们使用了许多不同的分割。我们能发现，一些分割比另一些更好吗？

表1. ACL-2021的主题

MRQA 确定了 18 个基准测试之间的一些有趣的相似点和不同点：

l 文本来源：Wikipedia/网络片段/其他

l Wikipedia (7个基准测试): DROP, HotpotQA, QAMR, RelationExtraction, SQuAD, TREC, Natural Questions

l 网络片段(3个基准测试): TriviaQA, SearchQA, ComplexWebQ

l 其他 (8个基准测试): MCTest, RACE, DuoRC, NewsQA, BioASQ, QAST, BioProcess, TextbookQA

l 问题的来源：众包/领域专家/其他

l 众包（9个基准测试）：ComplexWebQ, DROP, DuoRC, HotpotQA, MCTest, NewsQA, QAMR, SQuAD, TREC

l 领域专家（5个基准测试）：BioASQ, BioProcess, QAST, RACE, TextbookQA

l 其他（4个基准测试）：SearchQA, Questions Natural, RelationExtraction, TriviaQA

l 答案的来源：基于文档/不基于文档

l 基于文档（9个基准测试）：SQuAD HotpotQA, DROP, RACE, TextbookQA, BioProcess, MCTest, QAMR, QAST

l 不基于文档（9个基准测试）：NewsQA TriviaQA, SearchQA, Natural Questions, BioASQ, DuoRC, RelationExtraction, ComplexWebQ, TREC

知道这些模式是否对迁移来说是重要的，这个问题十分有趣。例如，有相当明确的证据表明，构建（众包）问题比查询日志中的问题更容易。

例如，TREC QA 于 1999 年从“构建”问题开始，但由于构建问题对于系统而言太容易且不切实际，因此很快从查询日志中的后续 TREC QA 方向（2000-2007）转向“真实”问题。基于这些观察，在问题、文档和/或答案的来源方面彼此相似的基准之间迁移也可能更有效。通过这种方式，合作竞争可以产生重要的见解，以比排行榜和竞争更有意义的方式推动该领域的发展。

当基准是现实的时，它还有助于推进该领域。MRQA 中的大多数基准测试都基于学术界的基准测试，自然问题除外。为了构建更现实的基准，建议与行业合作并确保基准代表他们关心的实际问题。多家公司参与了多项基准测试。

TREC QA (1999–2007) 和 IBM Watson之间也有联系。在这种情况下，IBM 于 2006 年开始使用为 TREC QA设计的系统，发现该系统无法很好地解决Jeopardy问题，正如在 TREC 25 周年庆典上所讨论的那样。

经过 5 年的努力，IBM 系统在 2011 年击败了两个最好的人类 Jeopardy 玩家，但他们 2011 年的系统可能与 2006 年的系统有很大不同，因为除其他外，TREC QA 任务并不能很好地代表 Jeopardy 任务。Jeopardy 任务是IBM市场营销的一个重要问题，尽管网络搜索等问题可能比 Jeopardy 更真实。

不幸的是，虽然我们都知道IBM赢了，但人们对它是如何实现的，以及这一成就如何推动该领域朝着更令人钦佩的目标前进的却少之又少。我们应该听从Voorhees的建议，以竞合取代竞争。关键不在于谁获胜，而在于推动该领域发展的洞察力。

吸走房间里的氧气

过度追逐SOTA的结果是什么？

其中一个结果便是，在一个关于计算语言学的会议上发表计算语言学论文越来越难了。

那些准备发表人生第一篇ACL论文的学生们可能会翻开机器学习的教科书，而不是计算语言学的教科书。

ACL会议过去更具包容性。

我们曾经在会议上看到更多来自不同领域的人，比如语言学、哲学、词典编纂、心理学等。ACL的领域曾经延伸到HLT(人类语言技术)，结合了计算语言学、语音和信息检索/网络搜索。很多人曾经在更多的领域/场所发表文章:计算语言学(ACL, EMNLP, NAACL, EACL, Coling)，机器学习(NeurIPS)，语音(ICASSP, Interspeech)，信息检索(SIGIR,TREC)，网络搜索(WWW, WSDM)，数据挖掘(KDD)，语言资源(LREC)，等等。

为什么我们在ACL见不到这些人了?

当我们参加了一个为查克·菲尔莫尔举办的ACL-2014研讨会时，我们清楚地发现他们中的许多人不再受欢迎了。研讨会的气氛真是酸甜苦百般滋味。他们很感激查克获得了终身成就奖，但是他们也在哀悼他的去世，他们担心他们的工作与ACL的走向有关。

菲尔莫尔的“Case for Case”在谷歌Scholar上有超过11k的引用，但ACL不再对这种方法或像FrameNet这样的语言资源感兴趣(以及在LREC上讨论的大部分内容)。

这些天，评论家们有时会说，由于BERT工作得很好，诸如framet和WordNet这样的资源已经不再有意义了。这种言论阻碍了多样性。那些在资源上投入的人可能会觉得这样的言论是无礼的(和不道德的)。

甚至机器学习领域的人也对SOTA追逐有所保留。

Rahimi在NIPS-2017上发表了题为“机器学习已成为炼金术”的关于时间测试的演讲。NIPS(现在被称为NeurIPS)过去更容易接受严格的理论论证。显然，对SOTA的追逐排挤了许多重要的话题，包括理论和计算语言学。

在其他领域，如词典学、图书馆学和信息检索，则有另一种严格的要求，在这些领域，正确的归因是非常严肃的。这些领域的人非常关心抽样(平衡)，什么来自哪里，什么代表什么。当追逐SOTA过于迅速而不那么严格时，他们会感到不受欢迎。

考虑HuggingFace中对TREC的引用，以及MRQA的表1。到目前为止，已经召开了30场文本检索会议。对于这30个会议中的每一个，都有许多轨道和许多数据集，有许多人贡献了许多。我们向熟悉TREC的人寻求帮助，以消除在HuggingFace和MRQA中提到TREC的歧义。

重要的是，特别是在某些领域，在该表扬的地方给予表扬。引用具有恰当属性的工作将使我们的领域更具包容性，更能吸引其他领域有着不同优先顺序和不同观点的人。适当的引用也会促进复现。

不切实际的期望：超人般的表现，真的吗?

我们现在讨论SOTA追求的三种成本中的第三种。

声称超人的表现(在任务上比实际情况更真实)会产生不切实际的期望，可能导致人工智能的冬天。

构造CAPTCHAs(完全自动化公共图灵测试来区分计算机和人类)以及反向验证并不难，我们称之为反向验证。对于标准验证码，你可以赌人成功，赌机器失败，而对于反向验证码，你可以赌机器成功，赌人失败。

技术往往是惊人的，尽管有时令人疲惫、尴尬、不道德和/或危险。在新闻和社交媒体上很容易找到有趣/可怕的“计算机错误”的例子。Alexa最近告诉一个10岁的女孩用一便士和电做一些危险的事情。Gmail autocorrect最近发了一封尴尬的邮件，邮件中说他想和一位商业伙伴交谈，结果却莫名其妙地变成了想和这位商业伙伴睡觉。

计算机被用于各种各样的用例，这引发了一些严重的道德问题。在一个案件中，法官裁定谷歌翻译不够好，不足以算作同意警方搜查。社会将需要解决更多这样的道德问题。

如果机器在转录语音和机器翻译方面真的比人更好，那为什么YouTube和Zoom等服务的字幕中会出现这么多“计算机错误”?总是有更多的工作要做。有一些任务，比如下棋，电脑比人做得好得多。但是，对于商业应用程序来说，有许多任务是重要的，比如标题，在这些任务中有改进的机会。

在WMT(机器翻译研讨会)和其他学术会议上，有人声称机器已经取得了比他们所拥有的更多的成就。社区倾向于记住这个简单的信息，尽管进行了重新评估，并提出如下警告: 这一结果必须非常谨慎地看待，并考虑到……评估方法的技术细节以及……重要的是，去年达到对等的语言对在今年的评估中没有得到确认，类似的情况可能会重复出现。

复制是许多领域的一个主要问题。复制危机的根源之一是对科学方法的过度自信。评估也可能具有误导性，因为对方法和指标(如BLEU)过于自信。社区更有可能记住超人的结果，而不是警告警告/重新评估。

例如，考虑用技术翻译会议。

这项技术非常好，但与人类相比还差得远。第一作者对这项技术有相当多的经验，因为他在一家中国公司工作，不会说中文。当他有了人工翻译时，他会更投入地参加会议(而且不会那么疲惫地努力自行翻译)。

当这项技术第一次被引入时，每个人都对它的工作效果印象深刻。现场直播被展示在舞台上，这样房间里的每个人都可以读到现场发言人用中英文实时播放的内容。在一次备受瞩目的会议上，主席强调了这项技术。

现在该技术已经出现了几年，该技术不再展示在舞台上（也许是因为一些不可避免的尴尬错误）。最新版本在手机上运行，所以只有我们这些需要技术的人才能看到（和听到）英文和中文的所有内容（疣和所有）。该技术甚至比以前更好，尤其是在延迟方面，但即便如此，它仍远未达到人类水平。

其他不像我们那样频繁使用该技术的人可能会被报告超人 BLEU 分数和延迟的评估误导。虽然在这些方面机器可能比人更好，但 BLEU 和延迟并不是重要的术语。专业口译员在需要说的时候翻译需要说的话，人工口译员不会犯“计算机错误”。

当评估产生的数字好得令人难以置信（使用不适当的指标，例如 BLEU 和平均延迟），我们为什么要如此认真地对待这些数字？

我们对评估方法充满信心，以至于我们相信结果（并掩盖警告/重新评估），即使知道结果不可能正确：第一原则是你不能欺骗自己，另外要注意你是最容易被欺骗的人。

许多评估报告称，机器在许多任务上都比人好。

我们都知道这些超人的数字好得令人难以置信，而且不太可能超越学术基准，转移到对商业实践很重要的任务。没有人会记住警告/重新评估，但他们会记住不切实际的期望，这对该领域的长期健康不利。

从这个角度来看，深度网络在这么多基准上的成功可以解释为对这些基准的批评。基准测试往往过于关注那些对我们已有的技术来说非常理想的任务。但基准应该更加强调改进的机会。基准应该不同于公关炒作。基准测试的目的不是让我们的技术看起来更好（或更好），而是帮助设定未来工作的议程。评估提供了对进展的可靠衡量，以及对未来的现实期望。

我们不反对评估和衡量实际进展，但反对那些比进步更多的是噪音、希望或者炒作的“收获”。排行榜前两个位置之间的性能差异（例如，正确率、F1等性能指标）可能并不统计意义上显著、可重复或者引人注目。

追逐SOTA的根本原因

下面两节将讨论人们追求SOTA的两个可能的根本原因：

1.缺乏领导力和长期战略规划：历史上，议程是由学术界、工业界和政府中相对少数有影响力的领导人自上而下确定的，但如今，议程更多地是自下而上地通过社交媒体和网站，例如带papers with code和 Hugging Face 的频繁下载模型和数据集列表。由于这些变化，重点变得更加短期和事务性。

2.由于程序不完善和纠正这些程序错误的无效过程，导致审稿人分配不力，进而导致评审不力。

追求SOTA可能是从历史悠久的评估传统演变而来的。Raji等人首先总结一下这段历史。从历史上看，强调评估是有道理的。评估过去不仅仅是毫无意义地追求SOTA。ACL-2021 基准测试研讨会上介绍了许多关于这段历史的第一手资料：过去、现在和未来。视频和幻灯片发布在 github 上。

这段历史的大部分内容都涉及约翰·马希、弗雷德·杰利内克和查尔斯·韦恩等有影响力的领导人。在 Mashey、Jelinek 和 Wayne 之前，议程主要是由许多其他有影响力的领导人制定的：Pierce、Skinner、Shannon、Licklider、Minsky、Chomsky 等。如今，人们可能会争辩说，该议程是由 Hinton、Bengio、LeCun、Pearl 等图灵奖得主自上而下提出的。

例如，Bengio 正在研究人工智能中一些长期存在的难题，例如因果性和组合性。尽管进行了自上而下的努力，但我们认为追求SOTA的动力实际上来源于社区的驱动（例如papers with code和Hugging Face），更多是自下而上地出现。

本文将表明，追求SOTA是缺乏自上而下领导的结果。

学生需要帮助来寻找要从事的项目。成功是通过交易来衡量的。怎样才能让一篇论文在下一次会议上被接受？发表或者消失，除非我们提供更有希望的替代方案，否则学生们很可能会求助于 PWC，以找到一个可能在下一轮会议评审中“成功”的项目。对于拥有更多经验和对该领域长期健康承担更多责任的更成熟的研究人员来说，长期成功更受关注。

成熟的研究人员，例如教科书的作者，过去常常在制定议程方面发挥更多作用。在过去，教科书和 ACL 会议之间的联系比现在更加紧密。

如今，议程更多地通过鼠标点击自下而上地确定。每个人都有平等的投票权。教科书作者的投票权不比刚起步的学生多。因此，短期关注往往会主导长期关注，因为刚起步的学生的投票范围远大于相对少数已建立的研究人员。议程不再由教科书作者和John Mashey、Fred Jelinek和Charles Wayne 等影响者决定。

John Mashey是SPEC的创始人之一，SPEC自1988年以来一直是衡量CPU性能的重要基准。SPEC对商业实践的影响力可能比普华永道所有基准的总和还要大。

Fred Jelinek曾在上世纪70、80年代担任IBM语音和机器翻译部门的经理，后来他来到约翰·霍普金斯大学，创建了CLSP(语言和语音处理中心)。

Charles Wayne 在包括 DARPA和 NSA 在内的美国政府资助机构中发挥了重要作用。

在美国政府中，项目通常设计为运行 5 年左右，但不知何故，从 1980 年代中期开始，我们的领域几乎连续获得了 30 年的资助。有人将资助的成功归功于Wayne 对评估的重视。在Wayne之前，有一个“人工智能冬天”，主要是Pierce 在“语音识别向何处去？”中对语音识别的批评，以及 Pierce 在 ALPAC 报告中对机器翻译的批评。

与以前的人工智能方法相比，Wayne 对评估的强调更具有魅力和欺骗性。这种方法使资金能够在漫长的“人工智能寒冬”之后开始并持续数十年，因为资助者可以衡量随着时间的推移而取得的进展。然而，至关重要的是，与我们今天制定的许多基准不同，Wayne 领导下的基准很大程度上是由自上而下的战略规划驱动的，具有明确的长期目标。

Wayne 鼓励跨学科合作。他通过接触自然语言处理 (NLP)、信息检索 (IR) 和语音创建了一系列 HLT（人类语言技术）会议。Wayne 在 TREC（文本检索会议）的创建中也发挥了重要作用。TREC 与美国商务部下属的 NIST（美国国家标准与技术研究院）密切相关。

我们的领域在其中一些目标上取得了相当大的进展，但仍有许多工作要做。

虽然很容易将当前的 SOTA 追逐热潮归咎于这段历史中提到的许多领导人，但这是不公平的。如上所述，追逐 SOTA 涉及毫无意义的数字，没有多少长期战略价值，而这段历史上的领导者对该领域做出了重要的长期贡献，主要是因为他们如此重视长期战略规划。

除了缺乏领导力之外，追求 SOTA 的另一个根本原因是审查流程不善。

Rogers的博客将 SOTA 追逐归因于懒惰/糟糕的审查、信息超载（淹没在论文中）和对基准测试的过誉，尽管在她的个人博客中对糟糕审查的讨论多于对基准的赞誉。

遗憾的是，EMNLP 审查是如此地糟糕。EMNLP的缺陷尤其具有讽刺意味，因为我们创建 EMNLP 主要是为了弥补ACL的缺陷。

过去，EMNLP 审查通过构建比AC更快。如今，EMNLP 审查并没有更快（也没有更好），因为所有 ACL会议都使用相同的流程。将我们所有的鸡蛋放在一个篮子里并不是解决办法，尤其是在已知篮子有缺陷的情况下。

最近有很多评论批评。Rogers的博客为审稿人提供了许多建设性的建议。虽然我们同意审查是不好的，甚至比以前更糟糕，但责备审查者不太可能导致改进。审稿人做审稿人所做的事情。创建更多教程、规则和流程不太可能有帮助。

人们普遍认为 ACL 审查是一个改进的机会。ACL 最近推出了基于公开审查的新滚动审查流程 (ARR)。也许 ARR 会改善问题，尽管我们对此表示严重怀疑。

最佳实践往往从确定根本原因开始。为了改变而引入改变不太可能带来改进。更好的做法是，逐步推出新流程，不要同时进行太多更改。

有一点是肯定的，如表 2 所示，ACL-2022 并不比 ACL-2021 快。ARR 的最初目标是在 35 天内完成所有评论和元评论。该过程要求每篇论文有 3 篇评论，一旦完成，则需要一篇元评论。这是一个非常紧迫的转变。

相比之下，在 ACL 2021 中，从提交到通知的时间为 92 天，几乎是 ARR 目标的3倍。但是 ACL-2022 使用了 ARR 而 ACL-2021 没有。如果 ARR 真的快了3倍，为什么表2的时间表中没有出现这种加速？

图2. ACL-2022并没有比ACL-2021快

速度很重要，但质量更重要。为什么审核这么差？正如罗杰斯在她的博客中指出的那样，审稿人很累而且报酬过低。但这也适用于研究人员。

我们大多数人做所做的事情是因为我们非常关心所做的事情。研究人员也很累且报酬过低，但这不是差评的根本原因。更可能的根本原因是将论文分配给的审稿人。ARR 有许多严重的设计缺陷，使得审稿人很可能会比以前更不合格。以前很少有学生被邀请审稿。审稿人通常是被引论文的作者，这增加了审稿人熟悉相关背景材料的几率，并积极倾向于一般方法。

过去，审稿人在该主题方面的专业知识比论文的目标读者多。不幸的是，现在情况已不再如此。

追求SOTA是这些新（但未改进）流程的自然结果。由于作者不能假设审稿人是合格的或对该领域有同理心，作者需要提出一个简单的论点，以便与没有动力的审稿人一起工作。根据经验，作者发现强调SOTA对于随机审稿人是有效的。

我们不能责怪作者所做的事情，也不能责怪审稿人所做的事情。我们已经看到了问题，而且是我们自己造成的。

点「在看」的人都变好看了哦！