【2021】如何看待计算机视觉未来的走向?
共 5142字,需浏览 11分钟
·
2021-06-07 19:59
本文节选了一些知乎上的高赞回答,分享给大家! 来源:知乎
作者:谢凌曦
链接:https://www.zhihu.com/question/436846337/answer/1655746348
来源:知乎
我没看错吧?NLP是一片蓝海是自由之地?CV比较完善进入了深水区?一时间,我都不知道应该从哪个点开始吐槽了。
因为题主问到了CV和NLP的比较。如果一定要横向对比的话,那么CV和NLP长期以来是互相学习、互相赶超的关系。虽然同属于AI这个大领域,也同样具有不确定性因而概率类方法占据绝对优势,但两者的性质还是存在诸多不同。具体来说:
CV信号是天然存在的,而NLP信号是人类创造出来、用于存储知识的。因此,CV信号维度高、信息密度低,而NLP信号维度低、信息密度高。这就意味着在NLP信号上进行自监督学习更容易,也意味着要在CV信号上进行自监督学习,需要事先进行某种意义上的信息提纯。
CV信号描述了对象的细节,具有一定的冗余度,而NLP信号是对象的抽象化描述,具有一定的模糊性。CV信号是层次化的,而NLP信号是结构化的。这些明显的对比,意味着要想在CV和NLP领域产生初级技术应用,算法需要关注的点是不一样的。CV更关注特征的抽象和domain之间的迁移,而NLP更关注单词间的联系和消歧义,等等。
当前,CV和NLP面临的共同困难,都是标注信息的不完善——简单地说,人类提供的标签已经无法很好地指导学习过程,具体描述可以参考我昨天写的另一个回答:
目前计算机视觉中的很多自监督方法的下游任务用有监督分类的意义是什么?
链接:https://www.zhihu.com/question/436646583/answer/1654089369)
这也就意味着,有监督学习的红利已经基本吃完,业界急需从无标签数据中获取迈向下一代人工智能的钥匙。虽然这把钥匙仍未找到,但是我们基本可以确定大规模上游预训练+小规模下游微调的套路。NLP已经部分走通了这条路——虽然现在的GPT-3被批评为只有记忆没有常识,但是长远看,这条路应该是通的;而CV也需要迎头赶上。
注意:以下是猜测
如果对CV的未来走向进行判断,我认为一种很可能发生情况是复刻NLP的轨迹,由大厂完成超大规模图像预训练模型,随后将模型release给广大开发者使用。这条路一旦走通,将会深远地改变当前CV的格局和开发模式。当然,对于广大开发者而言,适应新的算法并不困难,适应新的生态可能会有一定的挑战。
最后,谈到内卷的问题。内卷永远是存在的,只要大家认为这个领域的从业者的数量超过了它能够实际养活的数量。我对这个问题的看法是,CV在实际应用上的潜力远没有被发挥出来。如果更先进的技术路线能够达成,那么整个行业能养活的工程师数量一定会增加,到时候还会不会卷,就看会不会有更多人跳进这个坑里来了。
作者:韦仕才
链接:https://www.zhihu.com/question/436846337/answer/1664879388
来源:知乎
作为一名入门炼丹师我来谈谈我的观点。
首先关于卷的这个问题,我觉得并不仅仅是因为或者所很大程度不是因为说cv入门门槛低,或者深度学习入门门槛低啥的,好歹它还需一块1080ti+是吧。看看隔壁的JAVA,那个真是有手就行(狗头),但是你看有人说开发岗卷吗?想必无数学长学姐都告诉过大家,遇事不决就学JAVA,或者再加点c++。而大家,至少我应该是几乎没听过说JAVA开发岗一片红海找不到工作啥的,至多就是入职的996,35岁的中年危机。甚至我认识的人很多是深度学习搞不下去了,找不到工作了,半年速成JAVA去找了开发的工作。同样都是那么多人入门,甚至转开发和JAVA的人更多,为啥就深度学习一片红海,问题出在哪呢?
问题的核心其实在于供需失衡。首先是供给方,注意深度学习的红利是真的曾经存在过的!!!,并不从一开始就是泡沫。在15-17年那会,前景看起来一片光明,学生们看到深度学习,计算机视觉带来的巨大福利,老师们看到这个东西好发文章,申项目,于是纷纷转向深度学习,计算机视觉。特别是随着深度学习框架的普及和硬件资源的不断升级, 深度学习的入门门槛越来越低, 两个月入门真的不是梦想。就连李飞飞,吴恩达,bengio,blabla等各路大神都纷纷离校创业或从业,所以大家没忍住诱惑走进了这个坑真怪不了什么,我也没忍住,毕竟那时候谁能想到会是现在这样,一切看起来都非常美好,智能时代仿佛近在眼前。但是现在在呢? 李飞飞又回到了斯坦福, 吴恩达开始去搞教育, bengio的公司或许将要贱卖(以低于融资成本的价格卖出),知乎上开始出现如何看待2019年算法岗一篇红海, 2020年算法岗灰飞烟灭, 而我前不久也还在吐槽如何看待深度学习复现难的问题。这中间发生了什么?
这就需要谈到需求方的问题。首先很明显的是目前公司对算法岗,深度学习需求并没有像大家所想象的那么大,不然也不至于出现现在大家所说的一片红海灰飞烟灭的问题。可是为什么呢?说好的工业4.0呢,说好的光明前景呢?这就要谈到另一个问题,什么决定了公司的需求?梦想?热爱?不,是利益,99.9%公司都是如此。剩下的0.1%也会慢慢变成如此。这里我想起了之前和师兄的聊天
我的一个博士师兄是工作之后才来读博的,他17年硕士毕业去了海信做图像算法,后来有一天我们一起回寝室,师兄突然说起还好辞职,不然现在海信大裁员指不定就裁到他了。我说你们不是做算法的吗,怎么会裁到你们。师兄说裁的就是研发部门…,也就是算法岗可能的来源。我当时心想,不应该啊,研发部门不应该都是像达摩院, FAIR这种,关乎一个公司能否把握未来机遇,抓住下一个风口的重要部门吗,怎么说裁就裁。师兄说,因为不挣钱啊,我们公司墙上挂满了各种专利,但是实际能用来产生效益的没几个。不是每一个公司都能有那么大的魄力和资金投入做自己的算法研发的。更多是用别人做好的接口开发产品。
而像阿里,旷视,商汤这种提供算法支持的不应该有很大的算法岗需求吗?为什么还是会卷。其实他们的需求也没那么大,原因还是一样的,计算机视觉,深度学习并没能带来大家所期望应用和盈利。说到这,其实大家眼里的眼里这些公司也不容易,也卷的不行,那么多公司就分人脸识别,智能安防等几个领域的蛋糕,而且技术壁垒也没有大到非某家不可的地步。而这归根到底就是现在深度学习,计算机视觉能落地的场景真的不多。
所以这就谈到第二点了,现在计算机视觉的瓶颈。以下观点更多是从算法落地角度考虑的,可能存在一些局限。
做过算法落地的人应该都深有体会,那些顶刊顶会上的sota算法,你用到实际场景里,如果不适用额外数据做微调,准确率掉一个30%到40%,再正常不过了。而且很多时候视任务的难易程度准确率从70%到85%甚至90%是可以靠数据堆出来的,但是再往上就没那么容易了。当然千万级别甚至更高数量级的数据那就另说了,毕竟人工智能人工智能,有多少人工就有多少智能。即使如此还会有极端情况存在你加数据可能都无法解决
研一那会跟着师兄参加过一个复杂环境下人脸检测识别挑战赛,做的就是监控视频下白天黑夜各种复杂场景下的人脸识别。大家一看人脸识别,这不是做烂了吗,还有什么好做的?我当时也这么想,师兄可能开始也这么想,然后师兄两年就花在了上面,后来表示非常后悔。当时的情况就是白天下还好,基本都能识别差不多,黑夜路灯下,准确率极剧降到了10%各种优化弄到20%就已经惨不忍睹了,就这还拿了第五名。前面的是一起参赛的还有大华,云从这些大厂,这里就说说大华,专业做安防的,他们最后黑夜环境下准确率大概是70%,而且这里还不确实他们是不是用了自己的数据,总之我们是没数据。
数据都不能解决,但还是要用,那怎么办,一般就只能限制场景,麻烦用户了。现在大家所能看到的落地应用多半是在一个尽量不影响用户体验的场景限制里,采集海量数据集,拟合一个模型然后使用。这个过程中真正起了大作用的,不是大家以为的那些sota模型,而是那些场景的约束和海量数据。以我做的活体检测为例,现在也有落地的应用了,阿里,小视科技,但是你们去用的时候它都会有请靠近远离摄像头让你距离摄像头的位置在指定距离,请保持禁止blabla一些限制,甚至有时候我都已经在这个范围里还不给我检测,用的贼恶心。这些限制能不能不要?不行,因为不加这东西就解决不了。
紧接着上面就是关于计算机视觉的未来。我始终认为技术发展的终点就是产品,能够切实的落地影响或改变人们的生活,解决人们的实际需求。所以我一直觉得我今后会是一个工程师而不是科学家。而如果从这个角度看计算机视觉的未来那就是这样的。
我数据量不够的怎么办——小样本学习,迁移学习。
数据标注成本高怎么办——半监督,无监督。
我数据分布不均衡怎么办——长尾分布。
如何利用各种可能的数据来优化提高模型性能——多模态学习。
如何适应复杂场景(自然的,人为的)——深度学习的鲁棒性,泛化性研究,对抗学习。
算法出问题我怎么纠正和修改——深度学习可解释性问题。
我的模型怎么快速高效部署用于实际产品——机器学习系统,深度学习框架研究,模型压缩
作者:二元倒回改造架构
链接:https://www.zhihu.com/question/436846337/answer/1688862815
来源:知乎
就互联网公司的而言,CV能提供的岗位数肯定远不及NLP。这是由学科的根本性质决定的。
目前CV的产出主要是感知智能,而NLP是认知智能,即用于“理解“的智能。可以说在整个AI链条里面,CV处在一个比较底层的位置,一般都是感知->理解->决策这样的pipeline结构。CV处在整个链条的底层,犹如操作系统之于计算机软件。
为什么CV作为整个链条的底层,岗位反而那么少呢?这正如做操作系统开发的岗位也很少一样。互联网公司里,最重要、最耗费人力的事情是什么?是技术吗?当然不。搞技术关键是要靠聪明的头脑,而蛮力堆积是不行的。因此,CV这种处于技术链条底层的岗位,往往通过极少数关键的团队就可以积累了,这种偏技术的团队能提供的岗位很少,对求职者能力要求很高,是我等茫茫众生可望不可即的。不要看招聘启示上都写的“研发工程师”,国内绝大多数公司也只是把别人现成的技术拿过来用,拥有真正的技术部门的寥寥无几。即使是像Google、Facebook这样的大公司,技术部门也只占很少的比例。因为是整个系统的基石,CV的准确性、确定性都被提出了较高的要求,一般都做成一个功能非常纯粹、明确的模块,例如人脸识别、目标检测之类。说白了做CV的就是“工具人”,少数人做出成熟的模块,给下游使用,因此耗费不了多少人力。
真正提供岗位的,还是做业务的部门。这种部门一般都是现成的技术拿过来用,虽然平时也会有一些相关的技术积累,但那也是有余力的个人或团队才能做的(一般这种团队里能有专利或论文发表,那绩效考核就可以拿到顶级的档次了)。那么对于做业务的团队,什么是核心呢?行内有个专业术语叫做“用户增长”,说白了其实就是蛊惑人心。人心是世界上最难测的东西,所以互联网公司才要花那么多时间、创造这么多岗位,进行各种AB实验、分层实验、用户分群实验......
而NLP任务主要是认知智能任务,其实从根源上就很有“摸透人心”的意味。现代语言学的奠基人索绪尔就指出过语言符号的任意性:语言符号和客观事物之间的联系是约定俗成的,是不需要存在任何逻辑的。NLP中许多问题也是非常模糊、非常主观的。例如:用户搜索“香蕉”,应该召回“香蕉味牛奶”吗(只考虑召回,不考虑排序)?这些NLP的问题在不同场景下有不同的答案,很难有一个通用的解决方案,公司需要雇许多人、做许多实验去摸透人心,也带来了工作岗位的增加。
声明:部分内容来源于网络,仅供读者学术交流之目的。文章版权归原作者所有。如有不妥,请联系删除。