1899篇论文、1329个机构、6012位作者,NeurIPS 2020谁在独领风骚?

机器学习实验室

共 5794字,需浏览 12分钟

 ·

2021-03-04 00:56

NIPS

转自:机器之心

机器之心《2020-2021 全球 AI 技术趋势发展报告》节选:顶会趋势(NeurIPS)分析。


2021 年 1 月,机器之心发布《2020-2021 全球 AI 技术趋势发展报告》,基于顶会、论文及专利等公共数据、机器之心专业领域数据仓库,通过数据挖掘定位七大趋势性 AI 技术领域。

此外,该报告还邀请了近 100 位专家学者通过问卷调查,形成对这七大技术领域近年发展情况、成熟度与未来趋势的综合总结,并基于 2015-2020 年间的开源论文与专利语料,结合机器之心自有的新闻舆论以及模型最佳表现(SOTA)等相关数据库进行了探索性数据分析,并形成了用以帮助技术趋势判定的量化指标 Synced Indicator (SI)。


为了方便从业者把握AI技术趋势,机器之心将持续刊载该该报告的节选内容,
以下是报告第一章「顶会趋势(NeurIPS)分析」部分内容。

2020 年的 NeurIPS 2020 因疫情原因而改为线上举行,一万八千人参会的 NeurIPS 2020 相比去年数量暴涨了三成。这次的最佳论文奖项(Best Paper Awards)由三篇论文共同获得,分别是 CMU 与米兰理工大学合著的《No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium》, 利用学习的方法为通用交互寻找「相关均衡」(correlated equilibria,CE),UC Berkeley 学者发表的关于复杂数据的高效数据总结(data summarization) 任务 相 关 论 文 《 Improved Guarantees and a Multiple-Descent Curve for Column Subset Selection and the Nystrom Method》,以及 OpenAI 今年 5 月公开的有史以来最大的预训练语言模型 GPT-3 论文《Language Models are Few-Shot Learners》。对于 GPT-3 未来的研究发展方向,论文作者之一的 Dario Amodei 在 NeurIPS 2020 大会上表示:"GPT-3 仍然只是'预测一段文字之后的下一个字',我们还有很多事可以做,如通过强化学习来微调语言模型以改变目标函数, 进而生成更复杂的文字内容。"

NeurIPS 2020 的时间检验奖(Test of Time Award)则是颁给了由 UW Madison 华人学者 Feng Niu 作为一作在 NeurIPS 2011 上发表的论文《HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent》,NeurIPS 大会认为, 该研究提出了首个在没有任何锁定机制情况下并行运行随机梯度下降算法的实验,且能够保证强大的性能;自提出以来至今,该论文的被引用量接近 2000 次,它不仅对机器学习领域有影响,对计算机系统和优化领域也有影响,这些都促进了对 Hogwild! 方法的发展和理解。

根据大会官方数据,今年的 NeurIPS 2020 共计收到 9467 篇完整的论文提交,投稿数量较 2019 年增加了 40%,与 2018 年至 2019 年的增长率接近。其中,大会接收了 1899 篇论文,包含 105 篇 Oral 论文和 280 篇 Spotlight 论文,分别占录取论文数的 5.53% 和 14.74%。尽管今年的论文投稿和录取数量都创下纪录,但论文录取率仅为 20.06%,为近三年最低—— 低于 2019 年的 21.59% 和 2018 年的 20.81%。与往年相比,今年 Oral 论文和 Spotlight 论文,无论是数量还是在录取论文中的比重,都创下新高。

表 1-1 NeurIPS 近三年投稿 / 录取论文数量表
* 注:根据 NeurIPS 官方数据,2019 年投稿数量有 6743(初始投稿数)和 6614(有效投稿数),计算同比增长时使用 6743,计算录取率时使用 6614。

图 1-1 NeurIPS 投稿 / 录取论文数量情况

「 1-1 」发表论文作者相关数据情况

从发布论文作者的角度切入,被 NeurIPS 2020 录用的 1899 篇论文共计覆盖 6012 位从业学者(经过简单的同名作者识别后),其中 1 位学者有 12 篇相关论文发布在 NeurIPS 2020,7 位学者有 9 篇相关论文,6 位学者有 8 篇相关论文,总计 77 位学 者被录取的论文数量在 5 篇以上(含 5 篇),27 位学者录取论文数量在 7 篇以上,详情参见下表。

表 1-1-1 录取论文数量及对应作者数量统计

NeurIPS 2020 录取论文数量最多的作者是来自 UC Berkeley EECS 学院的助理教授 Sergey Levine,该学者的研究方向是用于决策和控制的机器学习算法,主攻深度学习和强化学习算法,应用方向覆盖自动驾驶、机器人以及计算机视觉和图形相关技术领域。值得注意的是,Sergey Levine 同样是去年的 NeurIPS 2019 上被接收相关论文数量最多的学者(同样以 12 篇相关论文数量排名第一),详情参见下表。

表 1-1-2 录取论文数量最多作者及相应论文数量

与 Sergey Levine 类似连续两年位列 NeurIPS 接收论文数量前列的还有毕业于清华大学,目前在普林斯顿大学就读博士的中国学者杨卓然(Zhuoran Yang),其研究方向主要是设计有效的学习算法以解决在强化学习和随机博弈中出现的大规模决策问题。杨卓然在 NeurIPS 2019 上有 7 篇相关论文被接收,今年更进一步有 8 篇相关论文被 NeurIPS 录取。

UCLA 教授杨林(Lin Yang)和美国西北大学教授汪昭然(Zhaoran Wang)今年各有 9 篇论文被接收,是仅次于 Sergey Levine 被接收论文数量最多的学者,其目前的研究重点也均是强化学习。整体而言,今年录取论文数在 7 篇或以上的共有 9 位华人学者,除了前面提到的几位,还包括清华大学教授朱军,UT Austin 教授汪张扬,悉尼大学教授陶大程,毕业于清华姚班的 CMU 在读博士 Ruosong Wang,以及创新工场合伙人张潼,华人学者占全部 27 人中的 1/3,成绩可谓不错。

发表论文数量在 7 篇以上的学者中,来自 UC Berkeley 的 Pieter Abbeel 与 Michael Jordan 均是人工智能领域的知名学者。尤其是 Michael Jordan 教授,是人工智能领域的先行者之一,其指出了机器学习与统计学之间的联系,使机器学习界广泛认识到了贝叶斯网络的重要性,前谷歌大脑与百度大脑负责人 Andrew Ng(吴恩达)以及图灵奖得主 Yoshua Bengio 均曾是 Michael Jordan 的学生。Pieter Abbeel 曾在吴恩达处就读过博士学位,是伯克利大学机器人学习实验室的主要负责人,也是伯克利大学人工智能研究院 (Berkeley Artificial Intelligence Research Lab, BAIR) 的联合主任。Pieter Abbeel 在人工智能相关产业界也有非常积极的活动,是人工智能初创公司 covariant.ai 和 gradescope 的联合创始人,还兼任 OpenAI 的顾问。

图 1-1-2 作为一作的相关论文数量

基于进一步的统计,以第一作者身份被 NeurIPS 2020 接收论文最多的学者是来自 UW Madison 的 Ilias Diakonikolas,该学者曾先后于南加州大学、爱丁堡大学、加州大学伯克利分校、哥伦比亚大学、以及雅典国立科技大学都有研究经历,其主要研究兴趣和方向是统计、博弈以及机器学习算法。其次是来自 CMU 的 Ruosong Wang 以及来自 Berkeley 的 Michal Derezinski, 两者均是博士在读,各有 4 篇 1 作论文发表。Ruosong Wang 目前的研究以强化学习为主, 而 Michal Derezinski 目前的研究则侧重于可用于学习理论和最优化的有效的数据采样技术。详情参见上图。

从论文的合著作者数量角度来看,超过 97% 的论文是合作完成的,由单个学者独立完成发表的论文数量共计 44 篇,占全部录取论文数量的 2.32%。被录取数量最多的是由 3~4 人合著的论文,合计占比约 50%。近 90% 的录取论文有 2~6 名作者, 而参与合著作者最多的一篇录取论文是来自 OpenAI 的《Language Models are Few-Shot Learners》,有共计 31 位合著作者。

 图 1-1-3 不同数量作者合作发表论文的分布情况

基于录取论文的作者数据,我们还额外尝试了基于姓名的性别预测分析仅供参考。Genderize 是一个根据姓名预测性别的在线工具,它基于一个庞大的人名数据库(包含一亿多条来自世界各地的人名数据),根据给出的人名(first name)预测其性别,预测结果是 "男"、"女"、"unknown" 之一。使用该工具对论文作者进行性别预测,能够预测出性别的作者约占全部作者人数的 60%,其中男性作者占比超过 50%,约为女性作者的五倍,后者仅占比不到 10%。另有 39% 的作者难以确定其性别,其中大多是汉语拼音形式的姓名。

「 1-2 」发表论文机构相关数据情况

从相关机构的角度切入,NeurIPS 2020 录用的 1899 篇论文共计覆盖 1329 个机构(经过简单的机构名合并,可能会出现同一机构不同写法导致的误差),其中谷歌发表的论文数量高居榜首,共计 204 篇。斯坦福、MIT、微软、UCLA、UC Berkeley 也取得不错的成绩,各有 100 篇左右的论文被接收。

表 1-2-1 NeurIPS 2020 相关论文数量最多的机构(Top 20)

在仅考虑一作的情况下,谷歌以 81 篇的相关论文数量依然占据第一的位置,但自此之后的 2~10 名均由名校占据。微软与 Facebook 的排名有所下降,IBM 则跌出榜外。从一作论文占比的角度来看,Google 的 81 篇占据其被录取论文总数 204 篇的 39.7%,Facebook 与之类似占比约为 40%,而微软虽然相关被接收的论文数量有 103 篇,但一作论文数量为 30 篇, 占比不到 30%。

表 1-2-2 NeurIPS 2020 相关一作论文数量最多的机构(Top 20)

从每篇论文的相关机构数量角度来看,有约 19% 的论文是由单个机构独立完成发表的,其余论文均由多家机构合作完成,超过 90% 以上的论文由 5 家以下机构合著发表,论文合著机构数最多能达到 7 家,共有 3 篇这样的论文,分别是《Part-dependent Label Noise: Towards Instance-dependent Label Noise》(悉尼大学,西安电子科技大学,香港浸会大学,RIKEN 研究所等),《Online Fast Adaptation and Knowledge Accumulation (OSAKA): a New Approach to Continual Learning》(MILA,ElementAI, 蒙特利尔大学,Facebook 等), 以及《Learning Dynamic Belief Graphs to Generalize on Text-Based Games》(滑铁卢大学、微软、布拉格查理大学、MILA 等)。

图 1-2-1 不同数量合著机构发表的论文数量分布

在独立发表论文的机构中。牛津和斯坦福大学各有 13 篇独立论文占据第一。哥伦比亚、加州大学伯克利分校、EPFL 三家机构也各有 10 篇独立发表的论文。相对高校,企业独立发布的论文数目则较少,谷歌是在这方面投入最多的机构,依然有 8 篇独立研发的相关论文,而在合著论文榜单上排名靠前的其他企业机构独立发表的论文则均在 8 篇以下,未能入榜。

表 1-2-4 NeurIPS 2020 独立发表论文(无其他合著机构)数量最多的机构(Top 10)

基于 GitHub 用户 Sergey Ivanov 整理的机构 - 国家对照表,结合我们去重后的论文相关机构数据,我们还额外尝试了相关机构的地区分布分析供参考。

根据各个机构所属的国家或地区,得到机构的地区分布如下:

图 1-2-2 论文相关机构最多的国家(Top 10) 

根据各个作者所属的国家或地区,得到机构的地区分布如下:

图 1-2-3 论文相关作者最多的国家(Top 10)

无论是相关作者还是机构数量,美国都是牢牢占据第一位的,且均几乎领先第二名两倍的优势。而比较有趣的是中国作为人才输出大国,在相关作者数量方面被英国赶超,但是相关机构方面却占据到了第二位。同处亚洲的韩国在相关机构上没有进入前十,但人才方面却排在了第六位。与这样的情况相反的是德国,人才方面虽仅排名第 7,但是在相关机构方面却占在了第三的位置。

往期精彩:

【原创首发】机器学习公式推导与代码实现30讲.pdf

【原创首发】深度学习语义分割理论与实战指南.pdf

 谈中小企业算法岗面试

 算法工程师研发技能表

 真正想做算法的,不要害怕内卷

 技术学习不能眼高手低

 技术人要学会自我营销

 做人不能过拟合

点个在看

浏览 70
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报