深度学习领域有哪些瓶颈？-技术圈

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

来源：知乎
链接：https://www.zhihu.com/question/40577663

深度学习是近年来人工智能热潮的原因，它的出现在很多方面都作出了突破，包括在图像、NLP以及语音等领域都有很多问题取得很大的突破，但它目前也存在一些问题和瓶颈需要解决。

https://www.zhihu.com/question/40577663/answer/729741077

一片欣欣向荣背后，深度学习在计算机视觉领域的瓶颈已至。

提出这个观点的，不是外人，正是计算机视觉奠基者之一，约翰霍普金斯大学教授Alan Yuille，他还是霍金的弟子。

他说，现在做AI不提神经网络，成果都很难发表了，这不是个好势头。

如果人们只追神经网络的潮流，抛弃所有老方法；如果人们只会刷榜，不去想怎样应对深度网络的局限性，这个领域可能很难有更好的发展。

面对深度学习的三大瓶颈，Yuille教授给出两条应对之道：靠组合模型培养泛化能力，用组合数据测试潜在的故障。

观点发表之后，引发不少的共鸣。Reddit话题热度快速超过200，学界业界的AI科学家们也纷纷在Twitter上转发。

Reddit网友评论道，以Yuille教授的背景，他比别人更清楚在深度学习在计算机视觉领域现状如何，为什么出现瓶颈。

深度学习的三大瓶颈

Yuille指出，深度学习虽然优于其他技术，但它不是通用的，经过数年的发展，它的瓶颈已经凸显出来，主要有三个：

需要大量标注数据

深度学习能够实现的前提是大量经过标注的数据，这使得计算机视觉领域的研究人员倾向于在数据资源丰富的领域搞研究，而不是去重要的领域搞研究。

虽然有一些方法可以减少对数据的依赖，比如迁移学习、少样本学习、无监督学习和弱监督学习。但是到目前为止，它们的性能还没法与监督学习相比。

过度拟合基准数据

深度神经网络在基准数据集上表现很好，但在数据集之外的真实世界图像上，效果就差强人意了。比如下图就是一个失败案例。

一个用ImageNet训练来识别沙发的深度神经网络，如果沙发摆放角度特殊一点，就认不出来了。这是因为，有些角度在ImageNet数据集里很少见。

在实际的应用中，如果深度网络有偏差，将会带来非常严重的后果。

要知道，用来训练自动驾驶系统的数据集中，基本上从来没有坐在路中间的婴儿。

对图像变化过度敏感

深度神经网络对标准的对抗性攻击很敏感，这些攻击会对图像造成人类难以察觉的变化，但可能会改变神经网络对一个物体的认知。

而且，神经网络对场景的变化也过于敏感。比如下面的这张图，在猴子图片上放了吉他等物体，神经网络就将猴子识别成了人类，吉他识别成了鸟类。

背后的原因是，与猴子相比，人类更有可能携带吉他，与吉他相比，鸟类更容易出现在丛林中。

这种对场景的过度敏感，原因在于数据集的限制。

对于任何一个目标对象，数据集中只有有限数量的场景。在实际的应用中，神经网络会明显偏向这些场景。

对于像深度神经网络这样数据驱动的方法来说，很难捕捉到各种各样的场景，以及各种各样的干扰因素。

想让深度神经网络处理所有的问题，似乎需要一个无穷大的数据集，这就给训练和测试数据集带来了巨大的挑战。

为什么数据集会不够大？

这三大问题，还杀不死深度学习，但它们都是需要警惕的信号。

Yuille说，瓶颈背后的原因，就是一个叫做“组合爆炸”的概念：

就说视觉领域，真实世界的图像，从组合学观点来看太大量了。任何一个数据集，不管多大，都很难表达出现实的复杂程度。

那么，组合学意义上的大，是个什么概念？

大家想象一下，现在要搭建一个视觉场景：你有一本物体字典，要从字典里选出各种各样的物体，把它们放到不同的位置上。

说起来容易，但每个人选择物体、摆放物体的方法都不一样，搭出的场景数量是可以指数增长的。

就算只有一个物体，场景还是能指数增长。因为，它可以用千奇百怪的方式被遮挡；物体所在的背景也有无穷多种。

人类的话，能够自然而然适应背景的变化；但深度神经网络对变化就比较敏感了，也更容易出错：

△ 是的，前面出现过了

也不是所有视觉任务都会发生组合爆炸 (Combinatorial Explosion) 。

比如，医学影像就很适合用深度网络来处理，因为背景少有变化：比如，胰腺通常都会靠近十二指肠。

但这样的应用并不常见，复杂多变的情况在现实中更普遍。如果没有指数意义上的大数据集，就很难模拟真实情况。

而在有限的数据集上训练/测试出来的模型，会缺乏现实意义：因为数据集不够大，代表不了真实的数据分布。

那么，就有两个新问题需要重视：

1、怎样在有限的数据集里训练，才能让AI在复杂的真实世界里也有很好的表现？

2、怎样在有限的数据集里，高效地给算法做测试，才能保证它们承受得了现实里大量数据的考验？

组合爆炸如何应对？

数据集是不会指数型长大的，所以要试试从别的地方突破。

可以训练一个组合模型，培养泛化能力。也可以用组合数据来测试模型，找出容易发生的故障。

总之，组合是关键。

训练组合模型

组合性 (Compositionality) 是指，一个复杂的表达，它的意义可以通过各个组成部分的意义来决定。

这里，一个重要的假设就是，一个结构是由许多更加基本的子结构，分层组成的；背后有一些语法规则。

这就表示，AI可以从有限的数据里，学会那些子结构和语法，再泛化到各种各样的情景里。

与深度网络不同，组合模型 (Compositional Models) 需要结构化的表示方式，才能让结构和子结构更明确。

组合模型的推断能力，可以延伸到AI见过的数据之外：推理、干预、诊断，以及基于现有知识结构去回答不同的问题。

引用Stuart German的一句话：

The world is compositional or God exists.
世界是组合性的，不然，上帝就是存在的。

虽然，深度神经网络也有些组合性：高级特征是由低级特征的响应组成的；但在本文所讨论的意义上，深度神经网络并不是组合性的。

组合模型的优点已经在许多视觉任务里面体现了：比如2017年登上Science的、用来识别CAPTCHA验证码的模型。

还有一些理论上的优点，比如可解释，以及可以生成样本。这样一来，研究人员就更加容易发现错误在哪，而不像深度神经网络是个黑盒，谁也不知道里面发生了什么。

但要学习组合模型，并不容易。因为这里需要学习所有的组成部分和语法；

还有，如果要通过合成 (Synthesis) 来作分析，就需要有生成模型 (Generative Models) 来生成物体和场景结构。

就说图像识别，除了人脸、字母等等少数几种很有规律的图案之外，其他物体还很难应付：

从根本上说，要解决组合爆炸的问题，就要学习3D世界的因果模型 (Causal Models) ，以及这些模型是如何生成图像的。

有关人类婴儿的研究显示，他们是通过搭建因果模型来学习的，而这些模型可以预测他们生活环境的结构。

对因果关系的理解，可以把从有限数据里学到的知识，有效扩展到新场景里去。

在组合数据里测试模型

训练过后，该测试了。

前面说过，世界那么复杂，而我们只能在有限的数据上测试算法。

要处理组合数据 (Combinatorial Data) ，博弈论是一种重要的方法：它专注于最坏情况 (Worst Case) ，而不是平均情况 (Average Case) 。

就像前面讨论过的那样，如果数据集没有覆盖到问题的组合复杂性，用平均情况讨论出的结果可能缺乏现实意义。

而关注最坏情况，在许多场景下都是有意义的：比如自动驾驶汽车的算法，比如癌症诊断的算法。因为在这些场景下，算法故障可能带来严重的后果。

如果，能在低维空间里捕捉到故障模式 (Failure Modes) ，比如立体视觉的危险因子 (Hazard Factors) ，就能用图形和网格搜索来研究这些故障。

但是对于大多数视觉任务，特别是那些涉及组合数据的任务，通常不会有能找出几个危险因子、隔离出来单独研究的简单情况。

△ 对抗攻击：稍稍改变纹理，只影响AI识别，不影响人类

有种策略，是把标准对抗攻击 (Adversarial Attacks) 的概念扩展到包含非局部结构(Non-Local Structure) ，支持让图像或场景发生变化的复杂运算，比如遮挡，比如改变物体表面的物理性质，但不要对人类的认知造成重大改变。

把这样的方法应用到视觉算法上，还是很有挑战性的。

不过，如果算法是用组合性 (Compositional) 的思路来写，清晰的结构可能会给算法故障检测带来很大的帮助。

关于Alan Yuille

Alan Yuille，目前就职于约翰霍普金斯大学，是认知科学和计算机科学的杰出教授。

1976年，在剑桥大学数学专业获得学士学位。之后师从霍金，在1981年获得理论物理博士学位。

毕业之后，转而开拓计算机视觉领域。并先后就职于麻省理工学院的人工智能实验室，哈佛大学计算机系等等学术机构。

2002年加入UCLA，之后担任视觉识别与机器学习中心主任，同时也在心理学系，计算机系，精神病学和生物行为学系任客座教授。

2016年，加入约翰霍普金斯大学。

他曾获得ICCV的最佳论文奖，2012年，担任计算机视觉顶级会议CVPR的主席，计算机视觉界的奠基人之一。

此外，Alan Yuille也直接影响了中国AI的发展，其嫡系弟子朱珑博士学成后，回国创办了AI公司依图科技，现在也是中国CV领域最知名的创业公司之一。

这篇文章中的观点，出自Yuille在2018年5月发表的一篇论文，共同作者是他的博士生Chenxi Liu，在今年一月份，他们对这篇论文进行了更新。

论文传送门：

Deep Nets: What have they ever done for Vision?
https://arxiv.org/abs/1805.04025

mileistone

https://www.zhihu.com/question/40577663/answer/309571753

因为我对计算机视觉比较熟，就从计算机视觉的角度说一下自己对深度学习瓶颈的看法。

一、深度学习缺乏理论支撑

大多数文章的 idea 都是靠直觉提出来的，背后的很少有理论支撑。通过实验验证有效的 idea，不一定是最优方向。就如同最优化问题中的 sgd 一样，每一个 step 都是最优，但从全局来看，却不是最优。

没有理论支撑的话，计算机视觉领域的进步就如同 sgd 一样，虽然有效，但是缓慢；如果有了理论支撑，计算机视觉领域的进步就会像牛顿法一样，有效且迅猛。

CNN 模型本身有很多超参数，比如设置几层，每一层设置几个 filter，每个 filter 是 depth wise 还是 point wise，还是普通 conv，filter 的 kernel size 设置多大等等。

这些超参数的组合是一个很大的数字，如果只靠实验来验证，几乎是不可能完成的。最后只能凭直觉试其中一部分组合，因此现在的 CNN 模型只能说效果很好，但是绝对还没达到最优，无论是效果还是效率。

以效率举例，现在 resnet 效果很好，但是计算量太大了，效率不高。然而可以肯定的是 resnet 的效率可以提高，因为 resnet 里面肯定有冗余的参数和冗余的计算，只要我们找到这些冗余的部分，并将其去掉，效率自然提高了。一个最简单而且大多人会用的方法就是减小各层 channel 的数目。

如果一套理论可以估算模型的 capacity，一个任务所需要模型的 capacity。那我们面对一个任务的时候，使用capacity 与之匹配的模型，就能使得效果好，效率优。

二、领域内越来越工程师化思维

因为深度学习本身缺乏理论，深度学习理论是一块难啃的骨头，深度学习框架越来越傻瓜化，各种模型网上都有开源实现，现在业内很多人都是把深度学习当乐高用。

面对一个任务，把当前最好的几个模型的开源实现 git clone 下来，看看这些模型的积木搭建说明书（也就是论文），思考一下哪块积木可以改一改，积木的顺序是否能调换一样，加几个积木能不能让效果更好，减几个积木能不能让效率更高等等。

思考了之后，实验跑起来，实验效果不错，文章发起来，实验效果不如预期，重新折腾一遍。

这整个过程非常的工程师化思维，基本就是凭感觉 trial and error，深度思考缺位。很少有人去从理论的角度思考模型出了什么问题，针对这个问题，模型应该做哪些改进。

举一个极端的例子，一个数据实际上是一次函数，但是我们却总二次函数去拟合，发现拟合结果不好，再用三次函数拟合，三次不行，四次，再不行，就放弃。我们很少思考，这个数据是啥分布，针对这样的分布，有没有函数能拟合它，如果有，哪个函数最合适。

深度学习本应该是一门科学，需要用科学的思维去面对她，这样才能得到更好的结果。

三、对抗样本是深度学习的问题，但不是深度学习的瓶颈

我认为对抗样本虽然是深度学习的问题，但并不是深度学习的瓶颈。机器学习中也有对抗样本，机器学习相比深度学习有着更多的理论支撑，依然没能把对抗样本的问题解决。

之所以我们觉得对抗样本是深度学习的瓶颈是因为，图像很直观，当我们看到两张几乎一样的图片，最后深度学习模型给出两种完全不一样的分类结果，这给我们的冲击很大。

如果修改一个原本类别是A的feature中某个元素的值，然后使得svm的分类改变为B，我们会觉得不以为然，“你改变了这个feature中某个元素的值，它的分类结果改变很正常啊”。

PENG Bo

https://www.zhihu.com/question/40577663/answer/413331053

个人认为，当前深度学习的瓶颈，可能在于 scaling。是的，你没有听错。

我们已经有海量的数据，海量的算力，但我们却难以训练大型的深度网络模型（GB 到 TB 级别的模型），因为 BP 难以大规模并行化。数据并行不够，用模型并行后加速比就会大打折扣。即使在加入诸多改进后，训练过程对带宽的要求仍然太高。

这就是为什么 nVidia 的 DGX-2 只有 16 块 V100，但就是要卖到 250 万。因为虽然用少得多的钱就可以凑出相同的总算力，但很难搭出能高效运用如此多张显卡的机器。

而且 DGX-2 内部的 GPU 也没有完全互联：

又例如 AlphaGo Zero 的训练，实际用于训练的只是很少的 TPU。即使有几千几万张 TPU，也并没有办法将他们高效地用于训练网络。

如果什么时候深度学习可以无脑堆机器就能不断提高训练速度（就像挖矿可以堆矿机），从而可以用超大规模的多任务网络，学会 PB EB 级别的各类数据，那么所能实现的效果很可能会是令人惊讶的。

那么我们看现在的带宽：

List of interface bit rates

2011年出了PCI-E 3.0 x16，是 15.75 GB/s，现在消费级电脑还是这水平，4.0还是没出来，不过可能是因为大家没动力（游戏对带宽要求没那么高）。

NVLink 2.0是 150 GB/s，对于大型并行化还是完全不够的。

大家可能会说，带宽会慢慢提上来的。

很好，那么，这就来到了最奇怪的问题，我想这个问题值得思考：

AI芯片花了这么大力气还是带宽受限，那么人脑为何没有受限于带宽？

我的想法是：

人脑的并行化做得太好了，因此神经元之间只需要kB级的带宽。值得AI芯片和算法研究者学习。
人脑的学习方法比BP粗糙得多，所以才能这样大规模并行化。
人脑的学习方法是去中心化的，个人认为，更接近 energy-based 的方法。
人脑的其它特点，用现在的迁移学习+多任务学习+持续学习已经可以模仿。
人脑还会用语言辅助思考。如果没有语言，人脑也很难快速学会复杂的事情。

稍后我还会再进一步写写这个问题，欢迎大家探讨和指正。

匿名用户

https://www.zhihu.com/question/40577663/answer/311095389

计算图越来越复杂，设计越来越反直觉。

Dropout/BN/Residual 这些创新也好 trick 也罢，至少能编一个有眉有颜的直观解释糊弄一下，在截然不同的场景和任务下也有成功的应用。去年这种级别的新的好用的 trick 基本没见着。炼丹师的人口越来越庞大，通用性的 trick 却没有被发掘出来，说明领域已经到了一个瓶颈，好摘的桃子已经被摘光了。

结构的潜力已经被挖光了么？还是我们没有找到更具有通用性和代表性的任务来作为新的trick的温床？这些都是DL研究需要回答的问题。现在看起来形式并不乐观，传统的DL研究依赖的改几根线多加几个layer，针对一个特定任务跑个分的范式，现在要发出高质量的paper是越来越困难了。

个人的看法是，如果DL想要真正带上人工智能的帽子，那就要去做智能改干的事情，现在人为的按照应用场景分成NLP/CV/ASR，粗暴的去拟合终究有上限，和人类获得智能的方式也并没有共同点。

Geek An

https://www.zhihu.com/question/40577663/answer/225444017

现在的问题还没有到伦理这一步，能不能实现出强AI都是个未知数。

还是简单说下深度学习，以及可能的强AI涉及到的问题吧：

深度学习能做的不错的

大样本下的有监督训练
1. CV：一些子领域：人脸识别，疾病分类，受限分类下的识别等都做的不错
NLP：文本分类、tagging、实体链接、翻译等，都做的还不错，逐渐逼近人类专家水准了（但还没法超越）
推荐系统：没法和人类比，但套个DL，基本效果都还看的过去
其他领域：语音，搜索引擎，广告等

深度学习做的不算好的

大部分问题的冷启动（仍然需要大量样本才有效）
单领域，不同样本表达形态的知识迁移（如文本长度不同，较为敏感）
多领域的知识迁移（文字，语音，视频）
复杂问题的深度强化学习
1. 如星际争霸等
严谨的推导能力
总结归纳能力
1. 文本摘要
阅读理解
举一反三能力
1. GAN在刷的各个领域，只能说图像现在做的还不错，但还没见有商用点

实现强人工智能要做什么？从现在看，其实就是上面说的几点：

记忆：能够学习海量信息（互联网、物联网）中的知识，并加以有效的存储
总结：能够总结归纳海量信息中的知识，得出一般性规律
生成：能够通过知识或规律举一反三，生成更多的类似的知识、规律
推导：能够通过知识或规律得到更深入的、符合目标的知识或规律

这四点就是核心难点，比较抽象，也没那么容易，每一点估计都要N年来解决

它们都可以用上深度学习，但肯定都不是简单设计个graph就可以搞定的

# UPDATE

最后，笔者送大家一张图，说明现在的NLP领域（强AI的来源）的现况：

可以看出，有许多应用在过去的五年内已经得到了很好的解决，还有不少应用并未成熟，成熟周期在下个5~10年间，也可能由于开源世界的效率变高而加快。不管如何，强AI在我眼中已经看到了一丝光明了。

何之源

https://www.zhihu.com/question/40577663/answer/224656397

简单说点自己的想法。在我看来，目前绝大多数深度学习模型，不管神经网络的构建如何复杂，其实都是在做同样一件事：

用大量训练数据去拟合一个目标函数 y=f(x)。

x和y其实就是模型的输入和输出，例如：

图像分类问题。此时x一般就是一个宽度高度通道数的图像数值矩阵，y就是分类的类别。
语音识别问题。x为语音采样信号，y为语音对应的文字。
机器翻译。x就是源语言的句子，y就是目标语言的句子。

而“f”则代表深度学习中的模型，如CNN、RNN、LSTM、Encoder-Decoder、Encoder-Decoder with Attention等。不同于传统的机器学习模型相比，深度学习中的模型通常具有两个特点：

模型容量大，参数多
端到端（end-to-end）

借助GPU计算加速，深度学习可以用端到端地优化大容量模型，从而在性能上超越传统方法，这就是深度学习的基本方法论。

那么，这种方法有什么缺点呢？个人认为有以下几点。

一、训练f的效率还不算高

训练的效率表现在两方面，首先是训练模型的时间长。众所周知，深度学习需要借助GPU加速训练，但即使这样训练的时间也是以小时或者天为单位的。如果使用的数据量大，加上模型复杂（例如大样本量的人脸识别、语音识别模型），训练时间会以周甚至会以月来计算。

在训练效率上还有一个缺点是样本的利用率不高。举个小小的例子：图片鉴黄。对于人类来说，只需要看几个“训练样本”，就可以学会鉴黄，判断哪些图片属于“色情”是非常简单的一件事。但是，训练一个深度学习的鉴黄模型却往往需要成千上万张正例+负例的样本，例如雅虎开源的yahoo/open_nsfw。总的来说，和人类相比，深度学习模型往往需要多得多的例子才能学会同一件事。这是由于人类已经拥有了很多该领域的“先验知识”，但对于深度学习模型，我们却缺乏一个统一的框架向其提供相应的先验知识。

那么在实际应用中，如何解决这两个问题？对于训练时间长的问题，解决办法是加GPU；对于样本利用率的问题，可以通过增加标注样本来解决。但无论是加GPU还是加样本，都是需要钱的，而钱往往是制约实际项目的重要因素。

二、拟合得到的f本身的不可靠性

我们知道，深度学习在性能上可以大大超越传统方法。但这种性能指标往往是统计意义上的，并不能保证个例的正确性。例如，一个99.5%准确率的图片分类模型，是指它在10000张测试图片中分类正确了9950张，但是，对于一张新的图片，就算模型输出的分类的置信度很高，我们也无法保证结果是一定正确的。因为置信度和实际正确率本质上并不等价。另外，f的不可靠性还表现在模型的可解释性较差，在深度模型中，我们通常很难说清楚每个参数代表的含义。

一个比较典型的例子是“对抗生成样本”。如下所示，神经网络以60%的置信度将原始图片识别为“熊猫”，当我们对原始图像加入一个微小的干扰噪声后，神经网络却以99%的置信度将图片识别为“长臂猿”。这说明深度学习模型并没有想象得那么可靠。

在某些关键领域，如医疗领域，如果一个模型既不能保证结果的正确，又不能很好地解释其结果，那么就只能充当人类的“助手”，而不能得到普遍的应用。

三、f可以实现“强人工智能”吗

最后一个问题其实有点形而上学，并不是什么技术上的具体问题，不过拿出来讨论讨论也无妨。

很多人关心人工智能，是关心“强人工智能”的实现。仿照深度学习的方法，我们似乎可以这样来理解人的智能：x是人的各种感官输入，y是人的行为输出，如说的话，做出的行为，f就代表人的智能。那么，可以通过暴力拟合f的手段训练出人的智慧吗？这个问题见仁见智，我个人倾向于是不能的。人的智能可能更类似于概念的抽象、类比、思考与创造，而不是直接拿出一个黑盒子f，深度学习方法恐怕需要进一步的发展才能去模拟真正的智能。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~