为什么现在不看好 CV 方向了呢?-技术圈

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

链接：https://www.zhihu.com/question/383486199/answer/3049588800

编辑：深度学习与计算机视觉

声明：仅做学术分享，侵删

作者：王云鹤

https://www.zhihu.com/question/383486199/answer/3049588800

我估计好多人觉得CV没啥意思，除了精度难刷，另外就是被LLM卷的，在AI领域的热度都被ChatGPT相关的讨论带走了，尤其现在有很多AI相关的媒体导致AI相关的讨论门槛越来越低。但其实CV确确实实还有很多技术问题没有被解决，虽然没有“涌现”的那么魔幻，但很多工作也都在持续革新领域内的技术。最近CV方向也有很多人开始讨论“大模型”，好像除了“大模型”之外，都没有什么可值得讨论的东西了，在去年11月初的时候写过一个思考，那时候的观点现在看起来也还ok。

王云鹤：关于AI大模型的一点思考和讨论https://zhuanlan.zhihu.com/p/580745171

CV到底有没有大模型？我认为像GPT那种大模型短期是没有的，这个观点在跟不同的人讨论中都有一定的共识，CV缺乏像GPT那种大一统的学习任务。除了底层视觉，目前这个事情还不太可能。其实，CV里面用到的最贴近大模型的反而是Backbone，Backbone里面用的最多的还是ResNet-50系列，因为性能和效率仍然是比较不错的trade-off。在ImageNet上预训练好的骨干网络模型就可以在很多检测、分割、重识别、细粒度分类等任务上获得不错的精度，这反而更贴近foundation model的初衷。最近我们做了一个比较有意思的工作，也可以推荐大家用一用。

6层的VanillaNet结构图，没有Shortcut，致敬LeNet、AlexNet和VGGNet6层的VanillaNet（朴素网络）可以超过ResNet-34，13层的VanillaNet在ImageNet达到83%的top1精度，超过几百层网络的性能，并展现了非凡的硬件效率优势。

王云鹤：卷积的尽头不是Transformer，极简架构潜力无限https://zhuanlan.zhihu.com/p/632685158

我们也把相关的代码和预训练模型都开源了，收到了不少同学的反馈和建议，VanillaNet主要发挥的是GPU对矩阵乘法密集计算的效率优势，所以虽然有更多的parameter和flops，latency反而是由于其他模型的，后续我们也有很多持续提升的计划：加预训练，加蒸馏，这也是现在基于vision transformer的骨干网络的常用策略；加分辨率，参考EfficeintNet系列，进一步优化网络结构；与模型压缩联动，与其他模型融合，争取获得更好的trade-off。

作者：谢流远
https://www.zhihu.com/question/383486199/answer/1568812291

因为cv入行最容易，所以最内卷。

nlp还要学点分字分词语法分析啥的，数据清洗里面一堆trick。

语音更是mfcc怎么算都要学半天，完事一堆decoding。

RL先要学一堆policy value q啥的概念，然后里面一堆不足为外人道的trick，你不懂你的模型根本就不收敛。

只有cv会rgb就行了，lab都不需要的。。。

作者：黑夜的眼睛
https://www.zhihu.com/question/383486199/answer/2272587312

早两三年的话，真没那么卷，有个好点的想法，配合简单的网络结构就能出篇不错的论文。现在要产出高质量的论文，网络复杂度是原来的好几倍。

至于现在，除非你是在头部的实验室或者公司，不让我基本觉得没啥机会卷出头，其他直接无脑大模型加微调，除非你的问题分解思路领先一整个版本，不然没啥机会。

现在我倒是觉得部分cv的更加回归本质了，深度学习不是银弹，一部分的领域已经开始研究问题建模了，最典型的就是nerf系列的论文。我觉得图形结构的隐式表示真的是很有趣的想法，合成结果依靠的是对问题的思考，对数学模型的构建而不是靠算力堆上去，如果看懂了nerf的思路，就真的会觉得这东西就是人的智慧的体现。21年cvprbest paper giraffe当之无愧。

(另一方面，我对舆论鼓吹transformer非常反感，个人非常不喜欢transformer一类的工作，过分强调网络性能结果导致忽略对问题的分析。在大部分cv任务里，transformer完全就可以视为加强版的backbone，很少有类似detr这种从底层改变的成果。实在很难想象一些学校的导师会视这些东西为创新点。另外补充，自回归生成也是很优秀的思路，transformer的作用也被体现了出来。我真正不喜欢的是类似于xxformer这种东西)

补：2022 年末的时候，diffusion 火了，不过我个人倾向于将它分成两部分，纯diffusion和大模型。纯 diffusion 的话是中全新的建模方式，可惜我数学不够好，本来2021 就偶然看到相关论文了，但是当前完全没办法理解里面描述的过程和实现原理。至于大模型，我觉得某种意义上来说类似stable diffusion 是一种类似 vq gan 的替代，先验分布从原来的 gpt 或者 transformer生成变成了diffusion 生成。惊艳的效果背后，同时也需要海量的计算资源，更令我惊讶的是开源的代码，需要顶级算法和同样顶级的工程能力。

最近也看到了不少通过微调预训练模型实现微调的图像生成论文，hugging face 上的api 也确实好用，但是大模型大行其道的同时，普通学校的学生可能也得重新审视未来的方向了。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~