计算机视觉是否已经进入瓶颈期？-技术圈

链接：https://www.zhihu.com/question/51863955
编辑：深度学习与计算机视觉
声明：仅做学术分享，侵删

近些年来在机器学习(深度学习)的支持下，计算机视觉迅速发展，并且与ML的发展在图像数据处理的交集上绑定在了一起。但CV领域自身的理论发展仿佛速度在放缓，那么未来CV的发展会不会因为自身发展的不足而只能依托其他领域发展的支持，计算机视觉领域是否会产生饱和甚至萎缩。不论兴趣，单从时机考虑，现在进入这个领域还来得及吗？

作者：HeptaAI

https://www.zhihu.com/question/51863955/answer/2525216135

先说结论：不，能做的方向太多了，但是比起以前需要能力或者更多时间：图像理解卷，但是是基础，要学但是可以不作为研究方向，图像理解的小样本学习、持续学习、医疗影像理解倒是比较乐观，3D也相对2D好一些；图像生成在大实验室，算力足，可以做；检索不推荐；Robotics建议大佬做，很有前景；图像序列的多目标跟踪、步态识别等建议专业Lab做；跨学科多模态很适合做，但是要学多个学科的知识。我们来看一下细致的分析：

图像理解（目标检测、图像分类、图像分割）这边，三个子领域都由于benchmark非常成熟，总体呈内卷态势，做的人很多，优秀的工作很少。仔细调查发现，这是行业的正常情况，因为这个领域和深度学习结合起来的发展时间是最长的，从李飞飞2009的ImageNet开始发展到现在，已经有13年的历史了，而ImageNet的benchmark已经相当完善，所以缺乏活力。我们总结了图像理解的突破口：一个是小样本学习的benchmark，建立一个有规模的迁移学习数据集；另一个是持续学习的benchmark。这两块，最近的会议都开始大量征稿，属于是热点方向。还有一个是医疗图像理解特别是MRI，这一块属于是造福人类的领域，世界各国给的Funding都很足。1个点在通用领域没什么价值，但在手术台上可能就直接决定一个人的生命。有研究指出多目标的工作还差点火候，可以继续做；但我们自己调查了论文的数量和质量，认为其实这也属于卷的比较严重的一边，厉害的模型像是YOLO，已经做到了非常好的效果，之后基本没有让人耳目一新的模型出现。另外，3D领域相对2D会好一些。
图像生成（超分辨率、文本to图像、图像去噪、风格迁移）这一块，超分辨率基本已经做烂了，而且因为本身就是个比较简单的task，内卷非常严重；文本to图像这一块卷倒是不卷，经常有好的工作出来，问题是好的工作都是几千亿算力的大公司例如Google在做，例如前段时间的DALL-E，如果在一般的实验室不建议入坑，很容易做完实验写paper的时候突然发现已经被大厂做完了，沦成同期工作；图像去噪是一个相对小众的分支，想入门看这个综述，主要与在MRI结合的方向比较有实用价值，所以可以预计这一块前景不错。风格迁移这边谈不上卷，但是跟艺术结合的领域Funding明显不够，就业面也窄，所以目前阶段各种评价都偏娱乐向。
图像检索（以图搜图、以文搜图）其实本质还是图像理解，而且算是一个已经比较成熟的区域了，例如搜索引擎、相似度推荐等，10年左右开始技术飞跃就困难重重了。现在这一块很少有Lab在做了，慎入。
Robotics（计算机视觉在无人车、无人机、机械臂上的应用）这一块，能做的还有太多。这一块用到深度学习（基于统计的方法）的还很少，基本都是基于规则的方法，其实计算机图形学更多一些。最热门的算法像是SLAM，都是被规则方法统治的。问题是，想要把计算机视觉用到这些科目上的难度非常大，改模型调参的结果没有规则方法好。所以做这个方向数学一定要好，否则很容易变成做横向，我们隔壁Lab就大量接横向，研究性质的paper发的不多。
图像序列（目标跟踪、图像序列分类、步态识别）其实就是一串图片拼起来，多了个时间维度，这块总体就业面稍窄，无外乎安防监控、无人驾驶两个领域，这三个子领域相对更有前景。目标跟踪推荐多目标跟踪，应用价值最高，Funding也不错；热点在落地可行性，也就是实时监测和降低算力门槛。序列分类最火的是事件监测，在交通方面有比较大应用。步态识别属于偏小众的方向，但是图像序列的Lab一般都会涉猎，如果Lab是专做图像序列的，例如导师专门做这块，可以考虑入坑。图像序列工作总体上聚集程度高，在专业实验室会比较吃香。
与NLP的组合（特别是视频理解、视频生成、视频搜索，也就是上面三个经典图像命题的视频版本）这一块，基本上还在蓝海期。视频其实就是图像序列加上音频和文字信息。视频理解像是概括视频的内容、提取视频中的事件这些，跟图像序列主要多一个音频和文字，属于图像序列的超集。远机位视频理解的benchmark实在太少了，很缺苦干做数据集的人，现在风气太浮躁。视频理解里面，视频分类现在是大瓶颈，两三年了还是那个模型。视频生成像是从一幅图片生成一整个视频，研究算是非常火爆的，可以用作推理专家系统，从一幅图片里面进行有端联想。视频生成里面视频质量也是一个很值得做的方向，现在很多视频内容是优质的但分辨率太低，视频超分效率感人，这边的研究实在是少的可怜。视频搜索可以用来做视频推荐算法，作为视频除了标题的一个文本参照，在标题党越来越多的情况下提升推荐质量。视频这一块总体来说难度都比较大，需要对CV和NLP都有涉猎，所以你光会CV还是容易陷入内卷，博采众长才是王道。
多模态。这个学科就是大量知识的杂糅，其实也是一个跨学科的方向，还是很容易出paper的。其实视频方向也是一种多模态，但是和NLP的关系最大，也是多模态里面最火的一个方向，所以放到上面一条单独讲。因为我们并不认为多模态是CV的一个部分，而是CV的超集，因此没有做重点survey。

作者：陀飞轮
https://www.zhihu.com/question/51863955/answer/1879155038

先说结论：从2021年时间节点看，计算机视觉已经进入了瓶颈期。

最近计算机视觉入了Transformer，热度空前高涨，我觉得CV用Transformer我还能理解，这对于多模态统一架构来说是有意义的。

但是MLP-Mixer和ResMLP的出现，我就看不懂了，说白了MLP-Mixer和ResMLP其实还是用的卷积，概念玩的6的，只有LeCun说了大实话。

在我的认知里，大组应该利用好自身的资源人才影响力做一些推动领域发展的工作，现在已经沦落到把MLP翻出来炒冷饭的地步了吗？

种种怪异的现象足以说明计算机视觉已经进入了瓶颈期。

作者：凤舞九天
https://www.zhihu.com/question/51863955/answer/1794052854

前面讲得已经挺好了，不过我作为一线的开发人员，我主要从工业界应用角度出发，说下自己的看法。

确实人脸这个方向，工业上的问题也大多解的差不多了，而且无论共开的还是企业私人的，数据都非常多。但是目前在工业界，包括检测、分割、视频理解、生成模型、机器人、无人车等等都还没有得到比较好的解。而且，在少量训练数据、模型小型化、模型泛化、虚拟生成等等方向也需要技术上的突破。其实一线开发面临的算法问题还有很多，只不过目前也没有特别好的解决方案，新出的论文能有效解决这些实际问题的可能也不多。由于自己工作方向一直是做业务，所以比较关注实际问题的解决。从我的看法来看，目前无论是从算法技术本身还是从算法应用角度，计算机视觉都还大有可为。不过前几年的资本大量涌入，导致大量人涌入CV圈，从一定程度上有人才饱和的趋势，但是真正能解决问题而不是仅仅跑个demo的这种人才还是非常稀缺的。

作者：CW不要無聊的風格
https://www.zhihu.com/question/51863955/answer/1844945081

揭露一个事实：

最大的瓶颈就是人心，来自于该领域下的研究/工作者，而非领域本身。

一直以来，无论是哪个领域，在发展了一定程度之后，总会有大部分人理所當然地觉得到了瓶颈期而放弃，但仍会有一小部分善于发现问题、认真观察与体验生活并且坚持不懈地尝试解决问题的人。

最终，那小部分人始终走在实现自我价值与追求奋斗目标的道路上，而那大部分放弃的人无论到哪个领域都始终会迷茫，被“自我淘汰”。

事实上，所有领域始终在发展，只不过快慢程度不同罢了，而造就这发展程度的不同恰恰是领域研究/工作者。所以，如果你真心热爱这个领域，就请不要给它设置瓶颈，谢谢！

往期精彩：

讲解视频来了！机器学习公式推导与代码实现开录！

完结！《机器学习公式推导与代码实现》全书1-26章PPT下载

《机器学习公式推导与代码实现》随书PPT示例

时隔一年！深度学习语义分割理论与代码实践指南.pdf第二版来了！

新书首发 | 《机器学习公式推导与代码实现》正式出版！

《机器学习公式推导与代码实现》将会配套PPT和视频讲解！