做CV和做NLP,是否都有光明的未来?

共 2819字,需浏览 6分钟

 ·

2022-03-11 03:08

↑ 点击蓝字 关注极市平台

作者丨疯狂试探皮皮虾
来源丨算法圈的小破事
编辑丨极市平台

极市导读

 

CV和NLP可能是目前深度学习最火热的两个方向,而在求学阶段或是在工作阶段该如何选择这两个方向,他们分别有什么优缺点?到底该选择哪一个方向能够有一个比较光明的未来呢?本文作者从企业的角度,分别分析了C端、B端和G端的情况,希望能给大家解答疑惑。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

首先祭出新华字典的老图镇文:

事情是这样的,最近有个大四的读者加了皮皮虾微信,说自己在困惑读研方向选择的问题:

“导师是做CV的,但自己看了知乎的一些回答后又想做NLP了。”问皮皮虾有没有必要尝试换方向换导师。

皮皮虾知乎刷的不太多,但也听说了知乎劝入搜推广,硕士选择NLP就是半只脚踏进了搜推广,云云。皮皮虾觉得这其实是比较片面的观点。所以今天就来谈一谈,做CV和做NLP,是否都有光明的未来?

从学术研究的角度来说,其实两者都没有问题。但近两年在工业界搞科研是越来越不受待见了,学术大牛出走AI lab已经不是什么大新闻了。如果对CV或NLP技术抱有很大的技术热忱,一心只想搞研究,皮皮虾还是比较建议读博后去混学术界。

不过对大部分人来说,硕士期间选择CV或NLP只是暂时的,毕业后大都要进互联网做业务的。这就引申出来一个问题:

我们在互联网行业都有光明的未来吗?

如果放在多年前,我觉得这个问题还真不一定。当时CV的对口互联网场景特别少,甚至流传CV人去互联网就是去做美图秀秀的夸张说法。而NLP技术与互联网的搜索、推荐业务关联比较大,容易进入互联网的核心赛道。

近些年来,无论是CV还是NLP技术,对口的业务赛道都比几年前丰富了很多。互联网的生意模式整体上可以分为:

  1. 面向终端消费者(To Customer,ToC)
  2. 面向企业客户(To Business,ToB)
  3. 面向政府客户(To Government,ToG)

我们所熟知的电商、搜索、信息流、短视频、游戏、社交等,就是典型的ToC业务。而云计算、AI类的业务,则同时涵盖了ToB和ToG。

先来说说ToC。

不少人吹NLP就是因为NLP技术能轻松切入到主流的ToC业务赛道。比如NLP中的文本匹配、标题理解、内容理解技术,在电商搜索、电商推荐、商品理解、搜索相关性、网页/信息流内容理解等场景十分适用,甚至常常作为支撑技术。

而对CV来说,早些年对口的互联网生意主要聚焦在ToB和ToG上。ToC则主要应用在图像处理软件如美图秀秀,相机类应用中。在搜索、推荐、广告场景,CV技术也有应用,例如图像搜索、广告图片OCR等,但对于业务全局来说,往往特征的权重比较低,影响范围比较有限。

而皮皮虾开头说过,CV技术ToC的事情放在2022年,就不一样了。近年来,随着新能源产业的强势崛起,自动驾驶成为热门赛道,大量资本、巨头涌入。而从计算机视觉技术进入这个新兴赛道无疑是水到渠成的。若这块业务和技术能持续稳定发展,若干年后切实落地,那一个新的万亿规模的赛道便诞生了。

即便不用等到自动驾驶全面落地开花,哪怕是当下,就在搜推广传统业务内卷的叫苦不迭的时候,自动驾驶赛道的算法人才不仅薪资水涨船高,而且稀缺,距离饱和、内卷还有一段距离。从个体的角度出发,这也是CV人择业的一个时代优势。

当然,既然是新业务,自然也有出意外的可能。那便是技术始终无法满足体验的预期,也始终没有找到一个折中的退路,凉了。

这便谁也说不准了。不过目前来看,无论国家政策、资本信心还是技术的更新换代,都还在持续向着好的方向发展,实现真·自动驾驶也是全人类的一个美好愿景,我们还是选择相信明天吧。

除了自动驾驶外,像最近比较火的视频搜索、元宇宙/VR应用、体感游戏等新场景,CV技术也将发挥出重要价值,甚至成为其中的核心技术。

再来说说ToB和ToG。

在这方面,CV不仅商业化空间比NLP要大,而且更重要的是容易做到标品化。例如安防领域,火车站、机场的闸机人脸识别,物流、快递面单OCR识别等,都属于量大、传统行业难以投入研发且AI技术企业相对容易做标品化。

标品化就意味着一套解决方案可以在多家重复应用,边际成本可以控制的很低,这是ToB和ToG能够赚大钱的前提。

而NLP在ToB和ToG方面推进阻力比较大,最大的问题就是同样一个NLP任务,在不同的业务方手里往往有不同的产品定义。例如同样是智能客服,在银行业的客服跟在航空公司的客服,显然业务逻辑有着相当大的差别,从运营的产品概念实体到对话逻辑,都需要做差异化的定制。即,基本不可能打造出一套通用的对话系统,哪怕同面向银行客户,建设银行跟农业银行的产品逻辑都无法平行复制。

无法标品化,就意味着只能让算法RD一个订单一个订单的啃,边际成本始终降不下来,赚不到大钱。归根结底,CV、Speech是感知层面的任务,有一套大自然定义的客观标准,而NLP是认知层面的任务,由人去创造的标准,自然就会千变万化难以客观统一。联想到近些年NLP领域“小样本”的研究越来越火,皮皮虾盲猜也跟企业AI ToB对标品化、边际成本控制的疯狂渴望有关。

最后总结一下。

无论CV还是NLP,2022年的业务出口都相对几年前宽敞了很多。NLP的ToC出口大,赛道核心,比较稳定,但ToB/ToG的空间目前还比较有限;CV的ToC出口小,赛道新,风险与机遇同在,但ToB/ToG的天花板更高。

一句话:我们都有光明的未来。

本文授权转载自公众号“算法圈的小破事”,点击以上卡片进行关注


公众号后台回复“数据集”获取50+深度学习数据集下载~

△点击卡片关注极市平台,获取最新CV干货
极市干货
数据集资源汇总:10个开源工业检测数据集汇总21个深度学习开源数据集分类汇总
算法trick目标检测比赛中的tricks集锦从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks
技术综述:一文弄懂各种loss function工业图像异常检测最新研究总结(2019-2020)


CV技术社群邀请函 #

△长按添加极市小助手
添加极市小助手微信(ID : cvmart4)

备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)


即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群


每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~


觉得有用麻烦给个在看啦~  
浏览 106
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报