算法工程师当前选哪个方向好?1,计算机视觉;2,自然语言处理;3,风控;4,推荐系统?

共 6174字,需浏览 13分钟

 ·

2020-09-25 02:14

↑↑↑点击上方蓝字,回复资料,10个G的惊喜

链接:https://www.zhihu.com/question/398876586/answer/1325455486
来自:知乎 编辑:王萌(深度学习冲鸭公众号)

知乎问题:

算法工程师当前选哪个方向好?1,计算机视觉;2,自然语言处理;3,风控;4,推荐系统?


当前2020年 ,算法工程师哪个方向好?从社会需求,工资待遇,未来发展方面讲。




高赞回答0





作者:JayLou娄杰
知乎专栏《高能NLP》作者

自然语言处理 和 推荐系统




高赞回答1





作者:纳米酱
链接:
https://www.zhihu.com/question/398876586/answer/1325455486

公司东搞搞西搞搞,我横跨超多业务线,以上领域全都做过。我建议是都别选了,多刷leetcode多跳槽,每天划水刷题搞开源,坑资本家三年钱,累积足够100万,回老家当老师公务员,或者搞其他事情吧。

自然语言诸如bert一类服务都被中台化服务化了,和各种号称几百亿节点的graph工具搭配起来,各种抽取知识,你连学习nlp的动力都没有了,直接查表就是了。训练?成套训练可视化界面都给你做得出来,几毫秒inference时间,几个小时的fintune时间,你只要会点run便可。现在就差压缩这些巨无霸还有搞头

视觉各类基础模块全都服务化了,而且这东西走集中调度比较坑,中台搞了人家业务方也不一定会用,github调包太方便了,完全可以自己启动,现在中台血拼视觉能力靠的是大量gpu服务器和低成本并发能力,你要10个gpu跑多少qps,我做到5个,拼这种能力,没人关心性能,只关心成本。视觉适合做2b项目,然而做2b在公司生存不下的,特别是政府的,都是项目制,做一个算一个,没啥爆发性,领导一换全都凉了,2b成了二逼代言词,公司做视觉也就剩视频还有搞头,又有几家公司能有直播带货呢?

风控两年前做过,这个技术门槛太低,xgboost横行天下,走纯业务,以后要去银行还好,qps不过1000的业务都不是纯正互联网业务,以后走互联网技术栈被锁死。

推荐系统和广告,广告作弊太普遍了,到处都是保量刷量,跪舔广告主爸爸,现在有搞头的,也就学习在各种爸爸约束下搞流控,pacing,强化学习啥的,一个目标后面搭配10个爸爸约束,经常发现又不数学太难一时半会解不出来,有不就是无解,最后解决方案是找到爷爷,让爸爸都听爷爷的,约束一下子少了很多,然后又成了社会工程学问题,没啥技术含量。

推荐系统,现在主播帮你解决内容生产和用户兴趣挖掘,顶层做好流控就行了,剩下搞搞用户行为分析和归因分析,不过这两个方向不直接面向指标,公司35岁开除你没商量。推荐系统工程师最后只需要会调权,流控,强插广告,数据分析便可。冷启问题又回到前面nlp和视觉上来,你调公司服务就行了。做rank?业界人士都知道,大部分公司压根都好久不优化rank了,roi太低,瓶颈压根不在于此。然后现在招聘大头兵,经常要求能不能给我搞全链路强化学习出去吹牛,想得美,试一个人工策略没这么简单,试work都要一个月去判断,人肉强化学习还差不多

足最后,做nlp和视觉的同学拼不过开源速度,做广告和推荐同学,人家已经不关心你的算法能力,你必须要有带业务线的经历,负责一个业务线包括工程和算法还有组织管理,简直要你啥都会。做风控纯粹业务逻辑,没啥技术含量,反而想去银行还好

最后,比来比去,还是比刷题能力




高赞回答2





作者:想早睡早起的yd
职位:阿里巴巴推荐算法工程师

选方向不如选部门。进大公司的搜索、推荐、广告部门的话,干的活直接涉及流量和变现,任何方向都很有前途。去一些人工智能实验室之类的部门的话,如果团队没有能为公司赚钱的业务,可能就只剩下“体面”了。

实在纠结方向的话,推荐>NLP>=CV>风控。




高赞回答3





作者:刘文杰
链接:
https://www.zhihu.com/question/398876586/answer/1327427549

平时不怎么看知乎,第一次作答,被大佬点名,就针对风控写一点思路吧。

对于互联网风控在下算是做得比较早的一批人了,我看了很多其他人的回答,总体感觉很多人对算法应用的理解陷入了一个误区。


为什么很多人把风控排的相对靠后


直观来看很简单,首先问题封闭,几乎解决的就是怎么优化坏账/N日逾期率这一个核心问题上。技术深度上,由于金融场景对模型可解释性要求很高,所以,xgboost+lr基本已经到头了,新一点的技术全都没法用。So,看上去是个轻松愉快的工作,花3天时间随便搞个简单打分服务上线,反正也没啥并发,然后再花两个月一边划划水一边搞搞图特征,收敛了,没了。


风控方向真的没啥可做的了吗


在下抛出一些问题,无论做没做过风控,都可以一起讨论一下:
- 既然可解释性要求高,有没有办法兼顾可解释性和深度学习带来的效果收益呢?如果有,是不是NLP和CV 等领域的新技术也能用到风控了?

- 既然风控对数据的依赖强,大量的数据资源都在第三方(前年可能有数千家公司,现在估计很少了),那么实际上是效率制胜,衍生出的问题是:如何快速接入数据?对于各种不同的数据形态如何快速地清洗并评估出对模型的价值?如何评估新数据源的商业价值?
- 如何优化模型外的策略层?
- 用户行为数据用好了吗?如何迭代?
- 风控引擎对借款流程的优化能有什么帮助?对流量获取有什么帮助?应该以什么样的计费模式获取流量使得公司ROI最高?我们能跟流量方做哪些合作?
- 信审为什么存在?为什么有些场景要淘汰掉?本质是什么?有什么办法能更好地利用信审的数据吗?
- 催回率有多少办法优化?催收团队的人效如何提升?


方向与价值

@li Eta同学有句话非常关键:对于工业界从业者来说,核心工作其实在于“适配”,主要是针对业务环境选择合适的方法。



上面列的这些问题,其实每解决掉一个,都能带来非常直接的业务收益,但是我接触到的大多数风控从业者,思维太局限在模型上,导致看到的也是很局限的问题。真实的业务场景有着海量的机会,合适的架构+合适的算法,用到最需要的场景,才是真正的能力。

当然,那个风控如日中天的时间点已经过去了,这点其实很多人已经提到,机会相对以前已经少了一些,但也会冒出来一些新的机会,就看谁能抓得住了。


总结一下


任何大方向的业务中都还是充满各种机会的,主要还是要有眼光,有技巧,有执行力去做起来。

最后忍不住解析一下一个挺火的回答(风控部分):


“风控两年前做过,这个技术门槛太低,xgboost横行天下,走纯业务,以后要去银行还好,qps不过1000的业务都不是纯正互联网业务,以后走互联网技术栈被锁死。做风控纯粹业务逻辑,没啥技术含量。”

自己菜还是不要怪业务方向了吧,错误引导太多人了。




高赞回答4





作者:li Eta
链接:
https://www.zhihu.com/question/398876586/answer/1327357883

今天收到同事转发的这个挺火的问题。本来没想蹭热度,但是看了几个回答(不能忍了),就想“务虚”得讲讲,希望能有一点正确的引导。

===正题分割线===


推荐/广告

因为恰好在一家推荐广告做的还行的公司,对这方面还是有一定的了解。

推荐和广告技术在ctr cvr这方面技术有一点重叠,就一起讲。ctr cvr模型无论是说样本还是模型训练,都有很多细致入微但是收益巨大的改进点。这个方向是可以持续优化的,并且它本身的上限和上下游的改进也有关,这个过程会持续好几年,然后进入瓶颈期,等待下一次技术大爆发。

在这个领域应当避免强行附和流行的模型(比如强化学习),不是说时髦的技术没用,我个人相信强化学习在推荐领域会有大作用,我只是反对不能言之有物的“支持”和“反对”。

此外,推荐/广告算法也不仅仅只服务于把流量分配准,还有很多涉及作者、广告主的算法和策略,这块不像ctr cvr一样广为人知,但其实是根本中的根本。

从事这个领域,最重要的能力,不是熟悉多少模型套路,是业务理解+不断学习新技术,掌握这种能力,类比一下,那么你也许就是下一个发明新套路的人(就如发明如何用机器学习做ctr的人一样,现在看来是成熟套路,当年可不是)。

建议选择流量正在崛起的公司,这样的公司很多基础技术都还处于迭代中,薪资高,机会多,成长空间大。


风控

这个我不懂,我帮at下真正懂风控的
@刘文杰

cv/nlp

这两兄弟一起说。cv nlp 发展几十年了,cv真正实用是得益于深度学习,在dl之前,cv好多方向只是有一个well-define的问题,但是结果很差(比如detection segmentation)。nlp在dl之前比较work的可能只有分词、ner这类这样相对不那么复杂的任务,nmt还是dl时代才做到“看起来不那么糟”。

目前确实有不少非常work,且成本不高,容易被标准化的套路,比如nlp的bert(或者别的pretrain)+ fine-tuning,cv 的 imagenet分类数据集(或者MoCo一类的pretrain)+ fine-tuning。

但学术上讲,这并不是终点,我们尚未实现给定数据集的“无人驾驶train模型”。

对于工业界从业者来说,核心工作其实在于“适配”,主要是针对业务环境选择合适的方法,有时候带有一些微创新。乍一看,可能让人觉得“适配”很low,其实不是这样。简单举个的例子,抖音那么多实时的特效,背后原理,做cv的同行能猜个八九不离十吧,但是你能按照这个badcase率和同样的流畅度实现到手机上吗?(这里面不仅仅是工程问题)。这样的工作一点都不容易,未来也有很强的技能迁移机会,工业界有为数众多的特殊场景,也愿意为此付出高工资。

总之,目前互联网还是一个朝阳产业,并且这个领域里面推荐 cv nlp都已经证明了自己的长期价值,对于做技术的人来说是一波时代发展带来的红利,一如特殊年代的石油工人、90年代选择下岗经商。




高赞回答5





作者:Dr.Frankenstein
链接:
https://www.zhihu.com/question/398876586/answer/1334002662

看了下这个问题下的答案,有不少说得挺实在的,大多是来自业界的人的经验,但学生党大概率会看得一脸懵逼,单纯觉得牛(答主有炫耀成分),却不知道答案在哪,容我根据自己的业务和科研经验,重新梳理一下。

答案写在前面,在写下答案的当下,排序是推荐(搜索)>cv=nlp>风控。也就是说,这个排序对于,几年后毕业但现在就要看方向的学生无效。

你会说,你这不是说废话吗?废话也有废话的底层逻辑,这里我就来聊聊为什么要说这个废话。
选方向,其实主要看这么三点:1.场子有多大,2.红利期还有多久,3.是不是这个部门的核心业务。

A.
为什么大家都把推荐系统排第一?因为目前绝大多数你听过名字的一线二线公司都会有自己的推荐算法部,而这个部门的业务也基本跟公司收入相关度很高。

但是,推荐算法团队的地位和技术阶段由这个业务的流量场大小直接决定。

举个例子,一个处在起步阶段的APP,数据积累和提效是首要任务,这个阶段,根本不需要机器学习,一个数据专家“人工学习”一下数据规律,配合运营团队的活动,做“机制策略”就足够了,硬要上模型,数据会稀疏到让你怀疑人生。这个阶段,往往是“运营为王”或“产品为王”的阶段,看不同公司文化决定。

如果在抖音,日活四亿的恐怖流量场,算法对内容/商品的分发和曝光的价值就会得到充分体现,有时候,模型甚至可以“大力出奇迹”。

B.
我把cv和nlp划等号,有人一定会问,只听说cv现在“卷”得不行,没听说nlp也卷啊。是的,现在的就业环境来看,cv竞争压力巨大,cv的hc目前收紧很严重,变相拉高了门槛,最近招进来的实习生人均两三篇非水A一作。

造成这种现象的原因有两个:
一是强势通用型算法淡化了人的作用。从resnet出来后,学术界出现灌水严重的现象,各种奇技淫巧在工业界的数据上很少有真的有效的。bert迟到但不会缺席,nlp领域按这个规律后面也会很快卷起来。(推荐目前没有什么dominate的模型,本质上也跟这个领域算法场景依赖性强有关)

二则是这两块变现能力现在饱受质疑。很多toB的业务盘子可能很小,毛利率也比较拉胯,从旷世港股上市受挫可见一斑。nlp国内明星公司不多,不少都是toB的,还没听说哪家准备上市,盘子有多大有待市场验证。至少目前不大,所以需求也不会高。做toC业务则往往不会是部门核心,而是辅助,例如视频网站的视频封面个性化生成,商品的标题改写生成等等。

C. 
风控排最后仅仅是针对现状而言的。为什么?大家看了这个问题下的这么多答案,觉得风控最好的出路是哪几家,一只手数不数的过来?另外就是老生常谈的,风控需要的可解释性很强,而现在的深度模型往往没办法提供。

但从长远来看,把风控排最后其实是保守做法。原因是,虽然现在成立风控部门的公司不多,电子支付及其衍生产品将会是数字经济时代的基础设施,划重点,要考。

随着业务平台化,支付入口化,越来越多的平台将拥有来自普通用户、商家的支付信息和现金流,金融相关的业务市场极大。但这个市场是个敏感的市场,将来必将受到严格准入和经营的管控,各司未来的不确定性很大。

D.
总结一下就是劝退(狗头)。现在播种两年后丰收的想法可以放放了,互联网虽然不是夕阳行业,但各大场景的流量红利也相继在今天(2020)到顶。后面的提升只会越来越难、微乎其微,相伴随地,内卷可能也会模糊算法领域边界,相比某些专业卷得没那么厉害罢了。从现在这个节点开始,选哪个方向还真的不重要。校招看的,是你在一个点上够不够深(顶会数量、质量),知识面够不够宽。你也很难保证学什么做什么,今年组里已经有招了cv进来做推荐的了。


每天进步一丢丢


超参数调优方法(三)


贝叶斯优化算法在寻找最优最值参数时,充分利用了之前的信息(区别于网格搜索和随机搜索在测试一个新点时,会忽略前一个点的信息)。贝叶斯优化算法通过对目标函数形状进行学习,找到使目标函数向全局最优值提升的参数。学习目标函数形状的方法:首先根据先验分布,假设一个搜集函数;然后每一次使用新的采样点来测试目标函数时,利用这个信息来更新目标函数的先验分布;最后算法测试由后验分布给出的全局最值最可能出现的位置的点。


对于贝叶斯优化算法,一旦找到了一个局部最优值,它会在该区域不断采样,所以很容易陷入局部最优值。为弥补这个缺陷,贝叶斯优化算法会在探索(在未取样的区域获取采样点)和利用(根据后验分布在最可能出现全局最值的区域进行采样)之间找到一个平衡点。

我的朋友圈更精彩


推荐阅读

(点击标题可跳转阅读)

机器学习论文清单:GitHub 2300+星

Numpy核心语法和代码整理汇总!

数学系的概率论和我们的不太一样。。。

机器学习模型调参指南(附代码)

阿里老哥对算法工程师技术学习路线的建议

老铁,三连支持一下,好吗?↓↓↓

浏览 50
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报