做CV和做NLP,是否都有光明的未来?
极市导读
CV和NLP可能是目前深度学习最火热的两个方向,而在求学阶段或是在工作阶段该如何选择这两个方向,他们分别有什么优缺点?到底该选择哪一个方向能够有一个比较光明的未来呢?本文作者从企业的角度,分别分析了C端、B端和G端的情况,希望能给大家解答疑惑。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
首先祭出新华字典的老图镇文:
事情是这样的,最近有个大四的读者加了皮皮虾微信,说自己在困惑读研方向选择的问题:
“导师是做CV的,但自己看了知乎的一些回答后又想做NLP了。”问皮皮虾有没有必要尝试换方向换导师。
皮皮虾知乎刷的不太多,但也听说了知乎劝入搜推广,硕士选择NLP就是半只脚踏进了搜推广,云云。皮皮虾觉得这其实是比较片面的观点。所以今天就来谈一谈,做CV和做NLP,是否都有光明的未来?
从学术研究的角度来说,其实两者都没有问题。但近两年在工业界搞科研是越来越不受待见了,学术大牛出走AI lab已经不是什么大新闻了。如果对CV或NLP技术抱有很大的技术热忱,一心只想搞研究,皮皮虾还是比较建议读博后去混学术界。
不过对大部分人来说,硕士期间选择CV或NLP只是暂时的,毕业后大都要进互联网做业务的。这就引申出来一个问题:
我们在互联网行业都有光明的未来吗?
如果放在多年前,我觉得这个问题还真不一定。当时CV的对口互联网场景特别少,甚至流传CV人去互联网就是去做美图秀秀的夸张说法。而NLP技术与互联网的搜索、推荐业务关联比较大,容易进入互联网的核心赛道。
近些年来,无论是CV还是NLP技术,对口的业务赛道都比几年前丰富了很多。互联网的生意模式整体上可以分为:
面向终端消费者(To Customer,ToC) 面向企业客户(To Business,ToB) 面向政府客户(To Government,ToG)
我们所熟知的电商、搜索、信息流、短视频、游戏、社交等,就是典型的ToC业务。而云计算、AI类的业务,则同时涵盖了ToB和ToG。
先来说说ToC。
不少人吹NLP就是因为NLP技术能轻松切入到主流的ToC业务赛道。比如NLP中的文本匹配、标题理解、内容理解技术,在电商搜索、电商推荐、商品理解、搜索相关性、网页/信息流内容理解等场景十分适用,甚至常常作为支撑技术。
而对CV来说,早些年对口的互联网生意主要聚焦在ToB和ToG上。ToC则主要应用在图像处理软件如美图秀秀,相机类应用中。在搜索、推荐、广告场景,CV技术也有应用,例如图像搜索、广告图片OCR等,但对于业务全局来说,往往特征的权重比较低,影响范围比较有限。
而皮皮虾开头说过,CV技术ToC的事情放在2022年,就不一样了。近年来,随着新能源产业的强势崛起,自动驾驶成为热门赛道,大量资本、巨头涌入。而从计算机视觉技术进入这个新兴赛道无疑是水到渠成的。若这块业务和技术能持续稳定发展,若干年后切实落地,那一个新的万亿规模的赛道便诞生了。
即便不用等到自动驾驶全面落地开花,哪怕是当下,就在搜推广传统业务内卷的叫苦不迭的时候,自动驾驶赛道的算法人才不仅薪资水涨船高,而且稀缺,距离饱和、内卷还有一段距离。从个体的角度出发,这也是CV人择业的一个时代优势。
当然,既然是新业务,自然也有出意外的可能。那便是技术始终无法满足体验的预期,也始终没有找到一个折中的退路,凉了。
这便谁也说不准了。不过目前来看,无论国家政策、资本信心还是技术的更新换代,都还在持续向着好的方向发展,实现真·自动驾驶也是全人类的一个美好愿景,我们还是选择相信明天吧。
除了自动驾驶外,像最近比较火的视频搜索、元宇宙/VR应用、体感游戏等新场景,CV技术也将发挥出重要价值,甚至成为其中的核心技术。
再来说说ToB和ToG。
在这方面,CV不仅商业化空间比NLP要大,而且更重要的是容易做到标品化。例如安防领域,火车站、机场的闸机人脸识别,物流、快递面单OCR识别等,都属于量大、传统行业难以投入研发且AI技术企业相对容易做标品化。
标品化就意味着一套解决方案可以在多家重复应用,边际成本可以控制的很低,这是ToB和ToG能够赚大钱的前提。
而NLP在ToB和ToG方面推进阻力比较大,最大的问题就是同样一个NLP任务,在不同的业务方手里往往有不同的产品定义。例如同样是智能客服,在银行业的客服跟在航空公司的客服,显然业务逻辑有着相当大的差别,从运营的产品概念实体到对话逻辑,都需要做差异化的定制。即,基本不可能打造出一套通用的对话系统,哪怕同面向银行客户,建设银行跟农业银行的产品逻辑都无法平行复制。
无法标品化,就意味着只能让算法RD一个订单一个订单的啃,边际成本始终降不下来,赚不到大钱。归根结底,CV、Speech是感知层面的任务,有一套大自然定义的客观标准,而NLP是认知层面的任务,由人去创造的标准,自然就会千变万化难以客观统一。联想到近些年NLP领域“小样本”的研究越来越火,皮皮虾盲猜也跟企业AI ToB对标品化、边际成本控制的疯狂渴望有关。
最后总结一下。
无论CV还是NLP,2022年的业务出口都相对几年前宽敞了很多。NLP的ToC出口大,赛道核心,比较稳定,但ToB/ToG的空间目前还比较有限;CV的ToC出口小,赛道新,风险与机遇同在,但ToB/ToG的天花板更高。
一句话:我们都有光明的未来。
本文授权转载自公众号“算法圈的小破事”,点击以上卡片进行关注
公众号后台回复“数据集”获取50+深度学习数据集下载~
# CV技术社群邀请函 #
备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)
即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~