深度学习的多个loss如何平衡?
共 3917字,需浏览 8分钟
·
2024-04-17 10:04
点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
链接: https://www.zhihu.com/question/361846939 编辑: 深度学习与计算机视觉
https://www.zhihu.com/question/361846939/answer/1763892634
直观的感觉就是现在各个问题算法效果都能出一个baseline,但是调优的空间并不大,更多的时候是靠苦力,比如标数据,清洗数据,badcase分析,写一些保护逻辑,前后处理等。 就像学术界几篇无监督MOCO,CLIP等新作,确实很惊艳,但是,比不上我用业务数据训练出来的backbone模型,这个没办法。 再说NLP里面bert大火,无论检测,识别,GAN,还是多模态都有论文,也不乏一些惊艳的论文。 其中多模态bert我有试,单模型提升也不大,说起来很心塞。 辛辛苦苦试了新模型,调整,调优,不一定搞得过写点策略,清洗下数据,说起来后者省时省力,一周就出效果去汇报。
最后谈点看法吧,主要是两点。 一个是说技术是技术,产品是产品,技术要依赖产品,而不是我的产品厉害是因为我的视觉算法厉害,这个太难了。 技术还是要依赖产品做出口,未必技术登峰造极,这里不单单是计算机视觉了。 大家可以看看自己用的最多的软件,有多少是说哪个功能别人做不了呢。 还有一点是我刚还是关注的产业AI,不过这块了解不多,希望能做起来吧,感觉是AI最后的希望了。
https://www.zhihu.com/question/361846939/answer/945007433
总体而言,大家基本上都在公开数据集上刷指标。 真实情况是,指标刷的再欢,到非限制性场景中分分钟被教做人。
https://www.zhihu.com/question/361846939/answer/1907996410
计算机视觉(Computer Vision,简称CV)行业的快速发展的确得益于人工智能概念的火热,当然这背后又有着计算机硬件算力的提升和深度学习理论的发展等诸多原因。
目前CV技术可以“不严谨”地分为这么几类: 1、目标检测; 2、图像分割; 3、图像增强(图像修复,超分); 4、图像生成(风格迁移); 5、人脸(宠物,属性)分类识别; 6、姿态估计; 7、立体视觉; 8、其他…… 他们或多或少的应用于安防、智能驾驶、物联网、手机拍照、工业自动化等领域。 其中每一个细分类都至少是一个千亿市值的市场。
尽管如此,刷榜方面工业界CV算法并没有和学术界拉开差距。 换句话说,工业界CV算法会比较偏重于业务,而且仅仅偏重于业务。 对于CV中每个具体的问题,学术界都存在一个baseline实现了基本的或者可以接受的算法效果,但是在此基础上继续调优的空间并不大。
另外提一点,数据在算法效果上的影响比你想象地要大。 一般情况,我们会将数据放在与网络框架训练细节同等重要的位置; 但是更常见的情况,数据会比其他算法细节更重要(数据是产生业务壁垒的重要原因)。 所以工业界发展遇到的一些问题与学术界相似,学术界方法有所突破后工业界才可能产生更多的新应用。
不负责任地讲一下,目前能看得见的、可以落地、值得研究的研究方向有,视频处理方面的(包括视频检索,视频分类等等),端侧CV算法应用(例如视频实时换脸),多模态融合(语言、文字、视觉)等等……
长远来看,CV技术必然能在未来科技树中占有一席之地; 但短期来看,AlphaGo在16年掀起的一阵人工智能热潮渐渐平息了下去,市场也渐渐回归了冷静。 啰嗦一句,CV还在发展,还在前进,不要俯视,也没必要仰望。
https://www.zhihu.com/question/361846939/answer/1773780107
学术界很多的东西几乎很难用的上,因为不仅仅是训练模型,你增加新的结构,例如空洞卷积,得看移植的设备平台是否支持,一个模型要转换到各种平台,所以大部分的时候,为了减少不必要的麻烦,模型都是用最基本的卷积池化和激活操作堆积起来。
而且公司大部分都是业务驱动,安防行业最大的特点就是业务需求杂,碎片化。
基线不是基线,定制满天飞。
今天检测人机非,明天检测鸡鸭狗,这些玩意你说你用什么transformer, detr来解决吗? 不现实,还不如我整理数据来的快。
cv工业界80%的问题都是数据问题,还有10%是策略问题,最后10%是学术界也解决不了的问题。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲 在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~