为什么现在不看好 CV 方向了呢?
共 3291字,需浏览 7分钟
·
2024-05-26 18:25
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
链接:https://www.zhihu.com/question/383486199/answer/3049588800 编辑:深度学习与计算机视觉 声明:仅做学术分享,侵删
作者:王云鹤
https://www.zhihu.com/question/383486199/answer/3049588800
我估计好多人觉得CV没啥意思,除了精度难刷,另外就是被LLM卷的,在AI领域的热度都被ChatGPT相关的讨论带走了,尤其现在有很多AI相关的媒体导致AI相关的讨论门槛越来越低。但其实CV确确实实还有很多技术问题没有被解决,虽然没有“涌现”的那么魔幻,但很多工作也都在持续革新领域内的技术。最近CV方向也有很多人开始讨论“大模型”,好像除了“大模型”之外,都没有什么可值得讨论的东西了,在去年11月初的时候写过一个思考,那时候的观点现在看起来也还ok。
王云鹤:关于AI大模型的一点思考和讨论https://zhuanlan.zhihu.com/p/580745171
CV到底有没有大模型?我认为像GPT那种大模型短期是没有的,这个观点在跟不同的人讨论中都有一定的共识,CV缺乏像GPT那种大一统的学习任务。除了底层视觉,目前这个事情还不太可能。其实,CV里面用到的最贴近大模型的反而是Backbone,Backbone里面用的最多的还是ResNet-50系列,因为性能和效率仍然是比较不错的trade-off。在ImageNet上预训练好的骨干网络模型就可以在很多检测、分割、重识别、细粒度分类等任务上获得不错的精度,这反而更贴近foundation model的初衷。最近我们做了一个比较有意思的工作,也可以推荐大家用一用。
6层的VanillaNet结构图,没有Shortcut,致敬LeNet、AlexNet和VGGNet6层的VanillaNet(朴素网络)可以超过ResNet-34,13层的VanillaNet在ImageNet达到83%的top1精度,超过几百层网络的性能,并展现了非凡的硬件效率优势。
作者:谢流远
https://www.zhihu.com/question/383486199/answer/1568812291
因为cv入行最容易,所以最内卷。
nlp还要学点分字分词语法分析啥的,数据清洗里面一堆trick。
语音更是mfcc怎么算都要学半天,完事一堆decoding。
RL先要学一堆policy value q啥的概念,然后里面一堆不足为外人道的trick,你不懂你的模型根本就不收敛。
只有cv会rgb就行了,lab都不需要的。。。
作者:黑夜的眼睛
https://www.zhihu.com/question/383486199/answer/2272587312
早两三年的话,真没那么卷,有个好点的想法,配合简单的网络结构就能出篇不错的论文。现在要产出高质量的论文,网络复杂度是原来的好几倍。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲 在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~