计算机视觉 10 年发展之观察：1.5万篇论文的大综述！-技术圈

转自丨机器之心

导读

为了调查计算机视觉领域业界赞助的研究所占的比例，以及它们对该领域产生的影响，加拿大约克大学的一位博士生分析了 2010 至 2019 十年间 Top-5 计算机视觉会议上发表的近 15000 篇论文，展示了业界研究的变化趋势以及这些研究对社区的影响。

在很多领域，由业界赞助的科学研究与学界研究通常共存并相互影响，从研究方式上看，二者存在着显著差异。企业开展的研究往往受到与自身业务需求和特定产品功能相一致的短期目标驱动，而非纯粹的学术探究。此外，工作流程也不相同：比如在机器学习研究中，学界研究者旨在开发新模型或改进现有模型以建立新的 SOTA，业界研究者正好相反，他们有着固定的性能需求，想要的只是能够满足自己并且方便扩展的特定模型或方法。

由于研究目标不同，一些业界人士承认，下一个伟大的 idea 更有可能出自学界。不过也要承认，业界具有较学界多得多的可用资源和数据。

近日，加拿大约克大学的博士生 Iuliia Kotseruba 对 2010 至 2019 年计算机视觉在业界和学界的进展进行了详尽的调研。这十年来，该领域的研究活动一直在增长。计算机视觉研究不断增长很大程度上要归功于深度学习技术的成功，而深度学习技术又得益于巨量可用的计算资源和数据。考虑到计算机视觉应用的巨大价值，很多企业都向该领域的研发工作投资。因此业界赞助的研究者成为计算机视觉社区的重要组成部分，并向该领域主要的学术会议和期刊杂志积极投稿。此外，所有计算机视觉顶会具备了工业博览会的特征，提供了交流和招聘机会。

论文地址：https://arxiv.org/pdf/2107.04902.pdf

尽管业界研究不断增长的现状很难忽视，但由于缺乏相关数据和正式研究，其对计算机视觉研究的影响在很大程度上还是未知的。因此，本文主要有两个目的，一是量化业界赞助的研究在计算机视觉领域的比重，二是探究业界的参与是否对该领域的发展方式具有可度量的影响。

数据来源和统计

2012 年，Kryzhevsky 等人提出了 AlexNet，展现出了卷积神经网络（CNN）在大规模图像分类任务上相较于其他机器学习方法的优势。此后不久，CNN 和深度学习扩展至了计算机视觉的很多其他领域以及计算机视觉以外的领域。

在本文中，为了捕捉到引入这种机器学习范式以来的趋势，研究者从 2010 至 2019 年主要计算机视觉会议接收的论文中挖掘数据。选取的计算机视觉会议包括 CVPR、ICCV、ECCV、ACCV 和 BMVC，一共抽取了 14686 篇论文。

为了分析业界在计算机视觉社区的现状和影响，研究者对以下信息展开了分析：论文作者及所属机构、机构类型（属于业界还是学界）、论文及发表年份、发表会议或期刊、标题、摘要和主题等。

下表 1 是具体的统计数据，包括学界、业界以及既属于学界也属于业界的论文、作者、论文引用以及代码链接的数量。

不断增长的业界研究

首先来看学界和业界研究的论文贡献。总体来说，过去十年计算机视觉领域发表论文的数量有了显著的增长。例如，计算机视觉顶会上发表论文的数量一直以 12% 左右的年均增长率稳步上升。如下图 1 所示，2010 年发表的论文 1000 多篇，到了 2019 年则增加到了 2500 多篇。

为了确定业界对论文增长的贡献，研究者首先统计了业界和学界作者在计算机视觉顶会上发表论文的占比，具体如下图 2 所示。过去十年，所有或部分作者来自业界的论文总体占比呈增加趋势，仅由业界作者发表的论文在所有论文中的比重在 2% 到 6% 之间波动，业界和学界作者共同参与论文的数量则增加了不止一倍，从 2010 年的 15% 增至 2019 年的 37%。总的来说，有业界作者参与的论文在所有论文中的比重在 2010 年低于 20%，到了 2019 年这一数字增加至了 40% 以上。

其次是论文作者所属机构的变化。如下图 3 所示，过去十年，业界作者的数量同样呈现稳步地增长。具体来说，仅属于业界的作者占比从 2010 年的 7% 增加至了 2019 年的 17%。同属于业界和学界的作者的数量也从 2017 年的不到 1% 增加至了 2019 年的 9%。

最重要的是该领域有影响力研究人员的行为，他们被定义为在作者合作网络中具有最高 PageRan 分数的 top-100 作者。结果显示，属于业界的顶级研究人员的占比由 2010 年的 20% 上升至 2019 年的近 60%。

关于业界和学界的合作，从论文作者和所属关系来看，都呈现出了更多合作的趋势。每篇论文的作者数量逐渐增加。在学界，2010 年每篇论文平均有 3 名作者，2019 年增至 4.5 名。此外，2019 年学界 / 业界合作的论文平均有 6 名作者。单篇论文的最多作者从 2010 年的 15 名增至 2019 年的 28 名。如上图 2 所示，这些新的合作大多出现在业界和学界作者之间。

此外，如下图 4 所示，学界和业界所属的联系也呈现出了区域模式。比如，来自 Google 和 Facebook 的研究人员比较多地与 CMU 和加州大学等美国顶尖大学合作。

业界研究对社区的影响

研究者发现，业界在以下两个方面产生了重大影响：一是研究主题趋势的演化，二是过去十年的引用偏好。

研究主题的演化趋势

隐含狄利克雷分布（ Latent Dirichlet Allocation，LDA）是文本数据中常用的主题发现方法。本研究中的文本语料库包含 14686 篇论文的标题和摘要。

为了确定这些论文的主题演化趋势，研究者使用经过训练的 LDA 模型来找出每篇文档的热门主题，然后每年分别针对学界和业界对每个主题进行汇总统计。

由于 LDA 模型生成的主题是词集，因此研究者额外使用领域知识（domain knowledge，DK）对主题进行标记。下表 2 展示了最终的 20 个主题和对应的 top-5 关键词：

业界对引用偏好的影响

研究者想要探究业界论文是否对社区产生更大的影响，即在有类似文章时，业界论文是否更有可能被引用？研究者为此创建的引用网络（citation network）是一个具有 14686 个节点和 161514 个边的有向图。具体地，在从论文参考文献中解析出来的 60 万个引用中，他们仅考虑 top-5 会议上的论文。结果显示，超过 95% 的网络节点包含在巨大的连接分支中，并且近 25% 的论文未被引用。

根据引用网络的数据，研究者发现业界论文被引更加频繁。在 top-10 被引论文中，2 篇出自业界作者，3 篇由业界和学界作者合作，5 篇出自学界作者。高被引论文主要介绍了广泛使用的架构（如 ResNet）、常见视觉任务（如目标检测）的算法和常用数据集（如目标检测和分割数据集 COCO 和自动驾驶数据集 KITTI）。平均来说，业界论文被引 23 次，学界 / 业界论文被引 11 次，学界论文被引 10 次。

另外需要注意，在引用网络中，学界论文占比 73%，仅有 4% 的论文是由业界贡献的，23% 由学界 / 业界贡献。因此，4% 的业界论文占了所有引用的 8%。

下图 7 展示了最高 PageRank 的 top-100 论文中，学界和业界论文的占比情况。可以看到，自 2015 年以来，业界所属论文的影响力大体呈增加趋势，2018 年业界论文更是一度超过学界论文，2019 年二者几乎持平。此外，过去十年中 100 篇 top 论文中，有 67 篇是学界论文。

为了进一步探究业界论文的引用偏倚（citation bias），研究者研究了与论文相关的代码 / 数据的可用性，这是因为该因素已被证明在其他科学领域展现出了显著的引用优势。

如下图 8 所示，提供代码的论文的比例稳步增加，并且无论是否涉及业界作者，公开发布代码的比例和提供代码论文的增长率大致相同。因此，研究者不将该因素作为业界论文平均高引用的原因。

往期精彩：

Swin-UNet：基于纯 Transformer 结构的语义分割网络

Swin Transformer：基于Shifted Windows的层次化视觉Transformer设计

TransUNet：基于 Transformer 和 CNN 的混合编码网络

SETR：基于视觉 Transformer 的语义分割模型

ViT：视觉Transformer backbone网络ViT论文与代码详解

【原创首发】机器学习公式推导与代码实现30讲.pdf

【原创首发】深度学习语义分割理论与实战指南.pdf

计算机视觉 10 年发展之观察：1.5万篇论文的大综述！

求个在看