深度学习“垄断”！分析17万篇AI顶会论文，他们首次揭示了计算资源贫富分化的证据-技术圈

新智元报道

来源：大数据文摘|BigDataDigest

作者：龙葳、mickey

【新智元导读】深度学习时代，学术界计算能力的不平等正在进一步加剧不平等，但最近第一次有学者将“人工智能资源的垄断”作为研究对象进行了详细的分析，并且将结果用论文呈现了出来。

“权力、专家、数据，正在向少数几家巨头公司汇集。”

2019年，当图灵奖得主Yoshua Bengio说出这句话的时候，所有人其实都早有感知。

的确，深度学习时代，学术界计算能力的不平等正在进一步加剧不平等。但最近，第一次有学者将“人工智能资源的垄断”作为研究对象进行了详细的分析，并且将结果用论文呈现了出来。

这一研究来自弗吉尼亚理工大学和西方大学的人工智能研究人员。作为“非精英大学”的代表，他们分析了60场全球顶级人工智能峰会（包括ACL, ICML, and NeurIPS ）的171394篇论文后得出结论，学术界算理的不平等正在加剧，特别是排名中下的大学，学术资源每年都在被蚕食。

论文给出了几个有意思的结论：

自2012年深度学习的意外增长以来，公司，尤其是大型技术公司和精英大学增加了对主要AI会议的参与；这里的精英大学指的是在QS世界大学排名中排名1-50的大学；
此外，研究人员发现了两种策略，可以通过这些策略来提高公司在人工智能研究领域中的影响力：首先，公司为单独发表人的论文研究发布数量在逐年增多；其次，公司主要与精英大学合作进行论文研究。因此，公司和精英大学在人工智能研究中的不断增长，挤占了排名中等（QS排名201-300）和排名靠后（QS排名301-500）大学的资源。
此外，研究还发现，大批研究人员正离开大学，从事高薪产业工作，这正在对学术界造成重要影响。

论文地址：https://arxiv.org/pdf/2010.15581.pdf

“深度学习垄断”：中低排名高校的研究资源正在被蚕食

Nur Ahmed和Muntasir Wahed在一篇题为《人工智能的去民主化：人工智能研究中的深度学习和计算鸿沟》的论文中表达了对于“深度学习垄断”的看法。

这篇论文最近发表在arXiv上，并于10月底在战略管理学会（Strategic Management Society）一个商业研究研讨会上发表。

论文分析了近60个全球人工智能研讨会，包括171394篇论文。这些研讨会都是人工智能领域最有影响力的峰会，比如ACL、ICML和NeurIPS，领域涉及计算机视觉、数据挖掘、机器学习和NLP。

“人工智能越来越受到少数参与者的影响，并且这些参与者大多隶属于大型技术公司或精英大学。要真正让人工智能实现‘民主化’，需要政策制定者、学术机构和企业层面的参与者共同努力，解决计算鸿沟问题。”

事实上，富裕的大学和大公司在深度学习方面具有优势，这一点并不奇怪。

像AlphaGoZero和GPT-3这样的大型现代网络需要数百万美元用于算力的训练，并且2019年12月的一份分析报告中，谷歌、斯坦福大学、麻省理工学院、卡内基梅隆大学、加州大学伯克利分校和微软被列为引领人工智能研究研讨会的前六大贡献者。

与此同时，规模较小的学校往往缺乏资金来顾及深度学习的应用，这种局限性可以定义学术界研究人员探索的人工智能的种类，或者加速学术界人才流失。近期，大量学术人才正涌向有足够资金的大型科技公司。

该论文通过数据分析证实了这一“机会差距”，论文称自深度学习兴起以来，QS排名排名301-500位的“低等大学”在人工智能研究会议上发表的论文，每年平均减少6篇；

与此相对，与《财富》500强企业、大型科技领袖和精英大学的论文发布量一直居高不下。

AI研究壁垒：计算资源和数据增加知识生产成本

这也是第一次直接有证据表明，对专业资源、社备的需求增加会导致科学领域的贫富差距。

论文称，深度学习的兴起大大增加了计算和数据的重要性，而这反过来又增加了知识生产成本，从而增加了进入壁垒。

研究人员表示，他们的研究揭示了一系列社会断层线导致的“计算鸿沟”。精英大学往往拥有更多富有的学生，但其多样性通常较少。

同样的情况其实也存在于大型科技公司，其同样缺乏多样性，尤其是在工程师、产品设计人员和人工智能研究方面。

由于人工智能已经成为影响商业、公共服务和私人生活各个方面的通用技术，这种人口上的单一性造成了广泛的后果。

在分析这一趋势时，Ahmed和Wahed将人工智能的历史分为两个时代。

他们将第一次定义为从1960年代到2012年，那时通用硬件被用来训练人工智能。在第二个时代，深度学习和GPU这样的专业硬件已经定义了这个产业，因为在ImageNet图像分类竞争中，这两类因素可以有效地提高计算机视觉。

在第二个时代，如上图所示，500强科技企业对人工智能的投入进入了一个爆发期：他们在顶会发布的论文数量每年以极高的速度增长。

解决方案：建立全国性的“人工智能研究云”

当谈到解决方案时，研究者称他们的发现提供了“具体的证据”，来证明学术机构需要一个全国性的“人工智能研究云”。

今年6月，美国各大大学、科技公司和美国参议院议员支持了美国建设国家人工智能研究云的构想，共享的公共数据集可以帮助训练和测试人工智能模型，这对资源受限的组织尤其有利。

这篇论文最后提议，美国政府应该通过扩展共享的公共数据集和其他资源来帮助大学。像国防创新委员会和美国国家安全委员会（NSCAI）这样的组织建议五角大楼和国会增加公私合作伙伴关系、政府基金以及与远程工作的开发者的联系，以此来吸引非传统背景的人才。

在接下来的几个月里，或许我们将很快看到进展，美国新当选总统拜登之前曾做出承诺，将投资3000亿美元用于5G和人工智能等领域的研发。

Ahmed和Wahed的发现也得到了最近其他论文的支持，例如，一篇名为《人工智能、人力资本与创新》的论文发现，在2004年至2018年期间，人工智能造成了学术界前所未有的人才流失，导致200多人离开大学到产业就职。

这篇发表于2019年秋季并于上月更新的论文中发现，顶尖大学、博士生和深度学习的初创企业都是从当前人工智能人才短缺中受益最多的。

分析还发现，CMU、MIT和斯坦福大学在校友们继续创办人工智能创业公司的大学中排名最高。此外，最近还有不少论文评估了人工智能生态系统，以及该技术在使学术界和产业界更紧密联系方面的作用。

除了顶会论文的数据分析，Ahmed和Wahed的论文还是基于对高校计算机系主任的采访后写出的。

受计算机研究协会（CRA）委托，他们对200多名高校计算机科学系主任进行的关于产业对学术界影响进行了调查采访，这项研究确定了学术界和产业界密切合作的积极和消极结果，包括计算机研究人员正在向产业工作流失。

一份关于调查的白皮书写道：“这种转变有可能对所做研究的种类、研究质量、计算机科学系的文化以及本科生和研究生的培养产生负面影响，需要特别关注与系文化、潜在利益冲突、知识产权相关的问题，并确保学生继续得到足够的教师指导和联系，为他们的职业生涯做好准备。”