AI自动评审论文，CMU这个工具可行吗？我们用它评审了下Transformer论文-技术圈

近年来，各大学术顶会的论文投稿量暴增，这使得论文评审的工作量大大增加。那么，有没有可能自动生成论文的评审结果呢？最近，CMU 研究者对此展开了探索，创建了一个自动论文评审系统，上传 PDF 论文即可自动生成评审结果，这或许会为论文评审带来一些改变。

科学技术的快速发展伴随着同行评审科学出版物的指数级增长。与此同时，论文的评审是一个耗时耗力的过程，必须由相应领域的专家来完成。这样一来，为不断增长的论文提供高质量的评审成为一大挑战。那么，有没有可能自动生成论文评审呢？

在近日发表的一篇论文中，来自 CMU 的研究者创建了一个自动生成论文评审结果的 Demo 网站 ReviewAdvisor ，只需要上传 PDF 论文，即可自动生成评审结果。

论文链接：https://arxiv.org/pdf/2102.00176.pdf

在论文中，研究者探讨了使用 SOTA 自然语言处理（NLP）模型生成学术论文同行评审结果的可能性。其中，最困难的部分首先是如何定义「好的」评审结果，因此该研究先讨论了评审结果的度量指标。然后，就是数据问题。研究者收集了机器学习领域的论文集合，使用每个评审涵盖的不同方面（aspect）内容对论文进行注释，并训练目标摘要模型，以生成评审结果。

实验结果表明，与人类专家给出的评审结果相比，系统生成的评审往往涉及到论文的更多方面。但是，生成的评审文本除了对论文核心理念的解释之外，其他方面的解读逻辑性都不强，而关于核心理念的评审则大多是正确的。最后，研究者总结了构建表现良好的论文评审生成系统面临的八个挑战以及可能的解决方案。

不过，研究者发现，人类专家评审和系统自动评审都表现出了不同程度的偏见，并且与人类专家评审相比，系统生成的评审结果具有更强的偏见性。

上面这段话来自该论文的第一部分「TL;QR」，有趣的是，这部分内容正是由其开发的系统生成的。

ReviewAdvisor 系统试用

试用该系统时，用户需要在浏览器中允许所有 Cookie，否则系统无法正常工作。研究者使用 sciparser 工具从 PDF 论文中提取信息，所以如果上传的论文采用的是不熟悉的模板，则系统也可能不工作。目前 ReviewAdvisor 支持 ICML、Neurips、ICLR、ACL、EMNLP、AAAI 等计算机科学顶会或期刊的论文。

Demo 网站地址：http://review.nlpedia.ai/

这个自动论文评审系统效果究竟如何呢？机器之心尝试上传了该研究所用的示例论文《Attention Is All You Need》。

Abstract+CE (with aspect) 又可细分为摘要、清晰度、原创性、可靠性、Substance 和对比 6 个方面。

下图展示了对示例论文《Attention is All You Need》原创性与鲁棒性的评审意见，其中关于原创性的评审意见为「使用自注意力的 idea 非常有趣且新颖」（下图左黄色部分），关于可靠性的评审意见则是「该论文未解释清楚 transformer 模型为什么优于其他基准模型」（下图右绿色部分）。

看起来，效果还不错。但是，机器之心在上传其他论文时，系统并未及时生成评审，或者上传多次后才生成评审结果。研究者表示，由于系统采用的计算机服务器是二作 Pengfei Liu 自己建立的，所以会出现内存不足的情况。这可能是无法及时生成论文评审结果的原因之一。

此外，研究者强调，ReviewAdvisor 系统可能会生成不正确、不完整或者带有偏见的评审结果，这些评审结果不能代替人类专家的评审结果。

优秀同行评审有哪些标准？

该研究首先总结了评估同行评审结果的常用标准：

决断性（Decisiveness）：好的同行评审应该立场明确，对是否接收论文提出明确建议；
全面性（Comprehensiveness）：好的同行评审应该有条理，首先简要总结论文贡献，然后从不同方面评估论文质量；
正当性（Justification）：好的同行评审应该有理有据，尤其是在指出论文缺点时要明确理由；
准确性（Accuracy）：好的同行评审应该确保事实正确；
友好（Kindness）：好的同行评审应该措辞礼貌善意。

数据集

该研究介绍了如何构建具有更细粒度的元数据的评审数据集，该数据集 Aspect-enhanced Peer Review (ASAP-Review) 可用于系统训练和多角度的评审评估。

数据收集

研究者通过 OpenReview 爬取了 2017-2020 年间的 ICLR 论文，通过 NeurIPS 论文集爬取了 2016-2019 年间的 NeurIPS 论文。对于每篇论文，研究者都保留了尽可能多的元数据信息，包括如下：

参考评审，由委员会成员撰写；
元评审，通常由领域主席（高级委员会成员）撰写；
论文接收结果，即论文最终被「接收」还是「拒稿」；
其他信息，包括 url、标题、作者等。

该研究使用 Allenai Science-parse 解析每篇论文的 pdf，并保留结构化的文本信息（例如标题、作者、章节内容和参考文献）。下表 2 显示了 ASAP-Review 数据集的基本统计信息：

Aspect-enhanced Review 数据集

尽管评审呈现出下图 3 所示的内部结构：评审通常以摘要开始，然后分方面列出不同观点，并给出证据。实际上，这种有用的结构化信息并不能直接获取。考虑到评审中各方面的细粒度信息在评估中起着至关重要的作用，该研究对评审进行了方面注释（aspect annotation）。为此，该研究首先介绍方面类型（aspect typology），然后进行人工注释。