为什么现在不看好 CV 方向了呢?

小白学视觉

共 3291字,需浏览 7分钟

 ·

2024-05-26 18:25

点击上方小白学视觉”,选择加"星标"或“置顶”

重磅干货,第一时间送达

链接:https://www.zhihu.com/question/383486199/answer/3049588800
编辑:深度学习与计算机视觉
声明:仅做学术分享,侵删

作者:王云鹤

https://www.zhihu.com/question/383486199/answer/3049588800

我估计好多人觉得CV没啥意思,除了精度难刷,另外就是被LLM卷的,在AI领域的热度都被ChatGPT相关的讨论带走了,尤其现在有很多AI相关的媒体导致AI相关的讨论门槛越来越低。但其实CV确确实实还有很多技术问题没有被解决,虽然没有“涌现”的那么魔幻,但很多工作也都在持续革新领域内的技术。最近CV方向也有很多人开始讨论“大模型”,好像除了“大模型”之外,都没有什么可值得讨论的东西了,在去年11月初的时候写过一个思考,那时候的观点现在看起来也还ok。

王云鹤:关于AI大模型的一点思考和讨论https://zhuanlan.zhihu.com/p/580745171

CV到底有没有大模型?我认为像GPT那种大模型短期是没有的,这个观点在跟不同的人讨论中都有一定的共识,CV缺乏像GPT那种大一统的学习任务。除了底层视觉,目前这个事情还不太可能。其实,CV里面用到的最贴近大模型的反而是Backbone,Backbone里面用的最多的还是ResNet-50系列,因为性能和效率仍然是比较不错的trade-off。在ImageNet上预训练好的骨干网络模型就可以在很多检测、分割、重识别、细粒度分类等任务上获得不错的精度,这反而更贴近foundation model的初衷。最近我们做了一个比较有意思的工作,也可以推荐大家用一用。

6层的VanillaNet结构图,没有Shortcut,致敬LeNet、AlexNet和VGGNet6层的VanillaNet(朴素网络)可以超过ResNet-34,13层的VanillaNet在ImageNet达到83%的top1精度,超过几百层网络的性能,并展现了非凡的硬件效率优势。

王云鹤:卷积的尽头不是Transformer,极简架构潜力无限https://zhuanlan.zhihu.com/p/632685158
我们也把相关的代码和预训练模型都开源了,收到了不少同学的反馈和建议,VanillaNet主要发挥的是GPU对矩阵乘法密集计算的效率优势,所以虽然有更多的parameter和flops,latency反而是由于其他模型的,后续我们也有很多持续提升的计划:加预训练,加蒸馏,这也是现在基于vision transformer的骨干网络的常用策略;加分辨率,参考EfficeintNet系列,进一步优化网络结构;与模型压缩联动,与其他模型融合,争取获得更好的trade-off。


作者:谢流远
https://www.zhihu.com/question/383486199/answer/1568812291

因为cv入行最容易,所以最内卷。

nlp还要学点分字分词语法分析啥的,数据清洗里面一堆trick。

语音更是mfcc怎么算都要学半天,完事一堆decoding。

RL先要学一堆policy value q啥的概念,然后里面一堆不足为外人道的trick,你不懂你的模型根本就不收敛。

只有cv会rgb就行了,lab都不需要的。。。


作者:黑夜的眼睛
https://www.zhihu.com/question/383486199/answer/2272587312

早两三年的话,真没那么卷,有个好点的想法,配合简单的网络结构就能出篇不错的论文。现在要产出高质量的论文,网络复杂度是原来的好几倍。

至于现在,除非你是在头部的实验室或者公司,不让我基本觉得没啥机会卷出头,其他直接无脑大模型加微调,除非你的问题分解思路领先一整个版本,不然没啥机会。
现在我倒是觉得部分cv的更加回归本质了,深度学习不是银弹,一部分的领域已经开始研究问题建模了,最典型的就是nerf系列的论文。我觉得图形结构的隐式表示真的是很有趣的想法,合成结果依靠的是对问题的思考,对数学模型的构建而不是靠算力堆上去,如果看懂了nerf的思路,就真的会觉得这东西就是人的智慧的体现。21年cvprbest paper giraffe当之无愧。
(另一方面,我对舆论鼓吹transformer非常反感,个人非常不喜欢transformer一类的工作,过分强调网络性能结果导致忽略对问题的分析。在大部分cv任务里,transformer完全就可以视为加强版的backbone,很少有类似detr这种从底层改变的成果。实在很难想象一些学校的导师会视这些东西为创新点。另外补充,自回归生成也是很优秀的思路,transformer的作用也被体现了出来。我真正不喜欢的是类似于xxformer这种东西)
补:2022 年末的时候,diffusion 火了, 不过我个人倾向于将它分成两部分,纯diffusion和 大模型。纯 diffusion 的话是中全新的建模方式,可惜我数学不够好,本来2021 就偶然看到相关论文了,但是当前完全没办法理解里面描述的过程和实现原理。至于大模型,我觉得某种意义上来说类似stable diffusion 是一种类似 vq gan 的替代,先验分布从原来的 gpt 或者 transformer生成 变成了diffusion 生成。惊艳的效果背后,同时也需要海量的计算资源,更令我惊讶的是开源的代码,需要顶级算法和同样顶级的工程能力。
最近也看到了不少通过微调预训练模型实现微调的图像生成论文,hugging face 上的api 也确实好用,但是大模型大行其道的同时,普通学校的学生可能也得重新审视未来的方向了。

   
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲
小白学视觉公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群


欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


浏览 507
1点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
1点赞
评论
收藏
分享

手机扫一扫分享

分享
举报