顶会“收割机”!周明“力压”Bengio总榜第一,清华第六,北大第八,张岳年度黑马

极市平台

共 4844字,需浏览 10分钟

 ·

2021-03-14 22:13

↑ 点击蓝字 关注极市平台

作者丨蒋宝尚
来源丨AI科技评论
编辑丨极市平台

极市导读

 

近期,Marek Rei 再次发布2020年度机器学习和自然语言处理(ML&NLP)领域的年度统计。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

ML&NLP领域到底哪家单位实力最雄厚?哪位学者“冉冉升起”?中美之间实力差距到底如何?

2020年已经远去,围绕着AI研究实力的讨论仍在继续。

伦敦帝国理工学院机器学习和自然语言处理著名学者Marek Rei 教授从2016年起,每年都会对ML&NLP相关的会议论文进行统计和分析,并一年一度发表分析结果,目前已成为该领域权威性的报告内容。

近期,Marek Rei 再次发布2020年度机器学习和自然语言处理(ML&NLP)领域的年度统计。

从其分析中,我们可以看出:

在论文的发表数量中,来自西湖大学的张岳学者,在2019年统计的时候排名12,2020直接跳到了第2位,2020年一共发表了30篇文章;在2012~2020年区间统计中排名第三,排在榜首周明和亚军Yoshua Bengio的后面。

各个机构的比较中,谷歌高居榜首,而清华大学、北京大学、中国科学院,则是中国进入各大会议论文数总量前十的三所研究机构,分别排在第六、第八、第十。

注:报告统计数据来源于2020年机器学习和NLP相关的会议和期刊,其中统计范围包括ACL,EMNLP,NAACL,EACL,COLING,TACL,CL,CoNLL,NeurIPS,ICML,ICLR,AAAI。由于作者是从Pdf文件以及相关程序中抓取的数据,因此数据可能存在偏差。所以作者提示,更应该关注总体趋势。

1 各大会议论文发表情况

几乎所有顶会发表论文的数量都在2020年破了纪录,尤其是NeurIPS呈现指数上升趋势,在各大顶会位居榜首;AAAI在2020年也开始“提速”,不过自然语言处理领域的ACL和EMNLP在2020年增幅稍微放缓。

2 组织机构论文统计

2020年论文发表数量最多的机构是哪个呢?

其中谷歌顺利占据了领先地位,在各个领域都发表了大量的论文。例如,在NeurIps上,谷歌发表的论文数量是紧随其后的微软近两倍。微软和 CMU 也发表了大量的研究成果,在所有会议上发表的论文数总量分别排在第二、第三。

而清华大学、北京大学、中国科学院,则是中国进入各大会议论文数总量前十的三所研究机构,分别排在第六、第八、第十。其中,清华大学比去年上升一个位次,在ACL上发表了23篇,在Neurips上发表了65篇,在AAAI上发表了67篇,EMNLP上发表了20篇,ICML上21篇,ICLR上18篇。这也说明了近年来中国高校在学术论文上的影响力日益攀升。

九年磨一剑:微软、谷歌

纵观整个2012-2020年期间的统计数据,前三名势均力敌:微软仍以1580篇领先,谷歌以1570人紧随其后,CMU以1537排名第三。在中国方面,清华大学和北京大学分别排名第八名,第九名。

为了更清晰趋势,作者用一个线性的图表对这些机构每年的论文发表数进行展示。再过去几年里谷歌的论文发表数量趋势呈现一条45度的直线,CMU在今年开始走“下坡”,以后是否继续上升,我们不得而知。

另外,虽然在 2012年至2016年,谷歌发表的论文总数要比CMU和微软的少得多,但是从2018年开始,它的论文发表数就开始远超包括CMU和微软在内的其他所有机构。

其中,中国机构表现最突出的清华大学,虽然论文发表数量在前几年中都一直较大地落后于国外机构,但在所有机构总体上升的趋势下,有高于平均上升趋势的幅度。

3 论文作者统计

就个人作者而言,CMU的GrahamNeubig在2020年总共发表了31篇论文,其中在ACL上10篇,EMNLP上7篇,TACL上3篇, NeurIPS上1篇,ICML上2篇,ICLR上4篇,AAAI上3篇。

来自西湖大学的张岳学者,在2019年统计的时候排名12,2020直接跳到了第2位,2020年一共发表了30篇文章;伯克利的 Sergey Levine从去年的第一“掉”到了今年的第三。哈工大刘挺(29),创新工场首席科学家,之前是微软亚研院副院长的周明(28)、清华刘知远(28)排名分别是第四、第五、第六。

通过比较2012年至2020年整体的数量,周明大佬占据榜首,九年期间共发表了128篇论文。在2019年统计期间,周明还排名第二,由于2020年他发表了28篇论文,在加上Yoshua Bengio和Chris Dyer在2020年大幅度缩减了论文数量,因此周明一跃成为榜首。

相比较于去年,张岳和刘挺的整体排名都有所提高,得益于去年在论文发表方面的成功。

现在来看一作,上面亮相的,大多是一个研究团队的领头人,而只有一作,才是实际做研究、做实验写论文的人。

论文第一作者:朱泽园占据榜首

作者说,以往每年都会绘制一张图表用来展示当年的第一作者情况,但是由于研究者重名现象比较严重,而且没有方法消除这些名字的歧义,所以今年直接省略了这一步,直接看2012-2020年期间的总体统计数据。

朱泽园目前在位于雷德蒙德的微软机器学习与优化组工作,他作为第一作者分别在NeurIPS、ICML上发表了12篇和11篇,

据说,朱泽园可小到大都是保送,小学毕业被保送南外,高一被保送清华;国际比赛都是金牌,2005、2006两年蝉联国际信息学奥赛金牌;2009年ACM总决赛亚军,清华毕业后他去MIT读完了硕士和博士,做了两年博士后之后,2017年就进入了微软。

香侬科技的李纪为发表数量第二,22篇一作;再然后是剑桥大学的Ivan Vulić发了20篇。值得一提的是,朱泽园论文多发机器学习研究论文,李纪为和Ivan Vulić多研究自然语言处理。

4 国家研究实力一览

上面这张统计图展示了美国在 AI 领域“力压群山”的主导地位,不过中国、英国、德国和加拿大在该领域所发挥的影响力也不容小觑。

总体而言,论文增多是一个总的趋势,大多数国家都在继续增加科学产出。虽然中国的论文发表数肯定每年都在增加,但美国似乎仍然想办法扩大了“研究实力”,大大领先中国的论文发表数量。另外,英国虽然在论文发表数量以及增长幅度上不及美国和中国,也还是牢牢锁住了第三的位置。

美国:企业主导

由于美国2020年的论文发表数量在所有国家和地区中占据了遥遥领先的主导地位,因而上面这张美国2020年论文发表数量统计图整体情况与各大机构2020年论文发表数量统计图差不多,谷歌依旧遥遥领先,而微软和CMU 依旧排在第二、第三。

中国:高校领先

在中国,高校是论文发表的中坚力量,排在前十的有九所高校,仅有两家企业。

清华大学和北京大学分别锁住了第一、第二的宝座,二者在国际舞台上的表现同样不菲,是中国进入全球各机构论文发表排行榜前十仅有的两所高校,近年来对于 AI 领域的整体发展做出了较大的贡献和推动作用。

中国科学院、中国科学院大学、南京大学是论文发表数量排在第三、第五、第七的高校,三所高校在 中国乃至全球 AI 领域扮演的角色同样出类拔萃,不仅有该领域的领军人物坐镇,如周志华等,还有为 AI 领域培养了一大批人才,如中科院计算所等机构。

而企业同样是中国论文发表的一只辅助力量,其中腾讯、阿里巴巴、华为也“打”进前十,分别成立了科研性的实验室,近年来也发表了大量的科研论文。

英国:DeepMind的传奇

在英国, 谷歌麾下的DeepMind 遥遥领先,其后是牛津大学、剑桥大学、伦敦大学学院、爱丁堡大学、帝国理工大学和阿兰图灵机构。

德国:NLP一家独大

在德国,罗伯特·博世有限公司总体论文发表数量排在第一,在今年的NeurIPS上取得了丰硕的成绩;达姆施塔特工业大学是论文发表数量排在第二,对NLP情有独钟;图宾根大学以和达姆施塔特工业大学相差不多的成绩排名第三。

加拿大:多伦多大学一骑绝尘

在加拿大,多伦多大学的论文发表数量是各机构中最出类拔萃的,排在第一,随后是Vector 人工智能研究院、麦吉尔大学,分别排第二、第三。

此外,Marek 也做了另外一项分析,即根据论文研究课题进行相似性分析,得出一些有意思的结论:

首先是组织之间的相似性,从下图可以看出,来自中国的大学主要集中在图的上部分,美国大学主要在图的右侧,微软、IBM、谷歌等企业在中间。因此可以看出研究课题即是非常具有区域性的,高校之间的相互合作受地域影响很大,而企业则相对就比较灵活。

5 OMT:关键词分析与有趣的统计

有趣的是,这些年来“神经”一词如何越来越流行,目前已稳定在所有论文的80%以上。“递归”和“卷积”方向朝下,而“变压器”则具有陡峭的上升轨迹。很高兴看到“ github”逐渐兴起,这意味着更多的论文正在使它们的源代码可用。

仅查看关键字“ neural”,ICLR和NeurIPS中的大多数论文都提到了它。在其他会议中,这一比例也一直很高。有趣的是,近年来EMNLP,CoNLL和CL实际上减少了使用neural关键词的比例。

至少在CoNLL中,其中一些“神经”已被“贝叶斯”代替。对于EMNLP,趋势更加稳定。对于大多数会议,“贝叶斯”比例总体上似乎略有下降趋势,但CoNLL和ICLR除外。

“github”一词确实表明,会议论文公开源代码正变得越来越普遍。与所有机器学习会议相比,自然语言处理会议在这方面的表现仍然要好得多,TACL和EMNLP的论文中有近80%提到了github。相比之下,ICLR约为60%,而AAAI最低,为40%。

“Task-Oriented Dialogue as Dataflow Synthesis” 一文有45位作者合力完成,荣获在合作者数量方面荣获历史第二位。

论文名字最长的是ACL 2020上的“Code-Switching Patterns Can Be an Effective Route to Improve Performance of Downstream NLP Applications: A Case Study of Humour, Sarcasm and Hate Speech Detection ”。

名字最短的当属NeurIPS的论文“Ode to an ODE ”。

参考资料:

https://www.marekrei.com/blog/ml-and-nlp-publications-in-2020/


推荐阅读


最新发布!2021年QS世界大学学科排名!中国内地89所大学上榜

2021-03-07

提速20倍!谷歌AI发布TensorFlow 3D,智能汽车场景亲测好用

2021-03-06

PyTorch 1.8来了!正式支持AMD GPU,炼丹不必NVIDIA

2021-03-05



# CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart2)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~


△点击卡片关注极市平台,获取最新CV干货

觉得有用麻烦给个在看啦~  
浏览 54
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报