AI顶会论文很多附带源代码?不少是假开源!

看到一篇绝佳的AI论文,非常期待作者能提供源代码,全文搜索HTTP,可惜出来的都不是源代码的链接。好不容易碰到一篇附带源代码的论文,点进去却是大大的404。终于发现某个不是404的源代码仓库,结果只是放上了几句说明,写着“代码coming soon”,然后一等就是一万年...... 所以,AI顶会论文中附带源代码的占比究竟有多少?这些代码中有多少已经失效了?这些代码的特点如何?作者是否为读者提供了足够详细的文档来运行这些源代码? 来自厦门大学自然语言处理实验室的团队发文回答了这几个问题,论文信息如图1所示。



从图3可以看出,过去10年中,论文总数、附带源代码论文数和附带源代码论文比例都在增加。在2019年,论文总数差不多达到8,500篇,附带源代码论文数接近3,000篇。可以看出,附带源代码论文比例在短短10年内从约5%增长到了约35%。在AI顶会上,随论文发布源代码的势头在不断增强。 AI顶会附带源代码的发布平台分布如图4所示。

从图4可以看出,大多数作者选择了GitHub作为发布他们源代码的平台。只有少部分作者把他们的代码发布到了其他代码平台。此外,将近三分之一的作者把代码发布在了自己的网页和FTP服务器上。需要特别说明的是,一些这样的网页包含有项目介绍,各类资源和GitHub源代码仓库的链接,这被视为是属于发布在自己网页这类。 GitHub已经成为了AI社区事实上的源代码平台。它允许用户通过一个通用的API访问其源代码仓库的元数据。因此,我们在研究下文的编程语言、star数和fork数时,将GitHub上的源代码仓库作为代表性样本(数据收集时间为2022年1月25日)。 AI顶会附带GitHub源代码的编程语言分布如表1所示。


从表2可以看出, star数的中位数和fork数的中位数之间的Spearman's rho是0.976,P值小于0.01。这表明它们之间有很强的关联性。在这10个顶会中,CVPR有最多的star和fork的中位数。需要注意的是,CVPR在所有这些顶会中也获得了Google Scholar最高的h5-index。ICLR和ECCV以类似的star数和fork数的中位数位居第二和第三。从中位数的角度来看,IJCAI的star数和fork数最低。它的star数的中位数远远低于其他顶会。总的来说,CV类顶会的star数和fork数的中位数比NLP类顶会高。这表明,在某种程度上,CV类的代码比NLP类的代码更受欢迎。
AI顶会论文中star数排名前十的GitHub源代码仓库如表3 所示。

从表3可以看出,大部分高星源代码仓库都是AI巨头开发的项目。这在一定程度上表明,IT工业界在AI的发展中有举足轻重的位置。
AI顶会附带源代码论文中的摘要核心词词云如图5所示。


从表4可以看出,近九成的作者在README文件中提供了相关论文的引用信息。这在一定程度上表明,作者们高度重视论文的引用指标,并为获得更多的引用做出了努力。几乎五分之四的作者在他们的README文件中作出了相关技术的介绍。有不到三分之二的作者提供了安装说明或使用教程。只有大约三分之一的README文件描述了运行源代码所需要的资源,不过有些开发者可能已经提供了这些资源,但没有在README文件中介绍。约有四分之一的README文件包含致谢信息,这个数字反映了AI研究中以往工作的重要性。仅仅只有14.4%的README文件中提供了明确的协议信息。
没有这些协议信息,用户很难符合规范地使用相关的源代码。需要说明的是,协议信息可以在GitHub仓库中由一个单独的文件提供,某些已提供的作者可能为了避免重复,并没有再次在README文件中给出这项内容。
从GitHub平台上的README文件来看,相当多的作者没有向用户提供足够详细的文档,导致了一些重要信息的缺失,例如安装说明和使用教程,而这些内容对于运行源代码是不可或缺的。因此,笔者建议在源代码仓库中提供这些信息应成为标准做法,这可以被认为是评估可复现性的重要标准。 最后,该文的作者呼吁AI论文的作者要确保附带在论文中源代码仓库链接的有效性和真实性,同时提供详细的文档以方便读者可以真正把源代码运行起来,并复现论文中的结果。 论文已经发表在 International Journal of Software Engineering and Knowledge Engineering Vol. 32, No. 07, pp. 947-970 (2022) arXiv上有作者提交的版本 https://arxiv.org/abs/2209.14155 文中提及的附带源代码论文和他们的源代码链接、README标注工具和XMU NLP Lab README Dataset均在论文中提供了下载地址。

评论