大模型强化学习方向面经-技术圈

硕士阶段的方向是强化学习，毕业后加入大厂做强化学习在游戏中的应用，已经有两年多了。这两年赶上了大厂很不好的光景，晋升被卡，涨薪变慢，真的是一言难尽。也算是openAI给饭吃，最近大火的大模型里用到了强化学习。因此想要尝试跳槽，换一份大模型方向的工作，做RLHF或者LLM-agents。

在boss上挂完简历，发现来聊的hr或者猎头倒是不少，可能是因为学历还有大厂光环暂时还有点作用。可是实际聊下来一圈以后，发现很多LLM岗位还是需要过往有NLP的经验，这个倒也是符合预期。对于阿里系（拆分后各个事业群独立招聘）、字节、百度等大厂，或者百川智能、360等比较头部有名气的中小公司，或许也能给到面试机会，但是在面试过程中一旦涉及到LLM具体的项目经验，像我这种完全空白的人来说只能尴尬地说没做过，背过的一些八股文也只能勉强应付。

面试一圈下来，拿了百度、美团、滴滴、快手这几家偏业务的算法岗位offer，但是跟大模型没啥关系，基本上都是各家业务的核心算法岗。感觉他们可能是因为这两年刚毕业一批人，空出一些hc，因为我这种强化学习背景的，只能说是业务算法的一个探索方向，不算是核心解决方案。大模型方向的offer，只拿到两个，打算选择其中一家。虽然现在大环境仍然不算好，跳槽有风险，尤其是创业公司，但是在大厂里温水煮青蛙也是困境。搏一搏，单车变摩托。

下面是面试过程中记录的一些关于大模型、强化学习的问题，仅供参考。

PPO算法中使用GAE的好处以及参数γ和λ的作用是什么？

PPO算法和DQN算法的区别是什么？

有哪些PPO算法的调参经验？

在线强化学习和离线强化学习在技术和应用场景上有什么区别？

强化学习和大模型之间的关联是什么？

如何评估大模型中数据集的质量？

目前国内一般选择基于哪些基座模型继续训练？

国内做大模型的主要工作是哪几个部分？

除了数据之外，还有哪些方向的工作可以进一步优化大模型的效果？

大语言模型是怎么输出的，观察过输出的概率值吗？

关于微调的方法有哪些？

如果让你训练一个模型，基座，数据，finetune的方法怎么选？

怎么解决大语言模型的幻觉问题，RLHF可以吗？

是否看好国内做基座模型工作的前景，为什么？

为什么模型越大，貌似更多地具备AGI的能力？这背后的逻辑是什么？

介绍下对transformer的了解，网络结构相比于lstm有什么不同？

transformer里用到的正则化方法有哪些？

chatgpt训练过程中，奖励模型有更新吗？

chatgpt强化学习训练阶段还有什么改进的空间和思路吗？

直接用训练reward model的数据精调模型，而不用强化学习，是否可行？为什么？

了解bert和gpt网络结构的细节及其差异吗？

假如reward model不太准，怎么办？

有做过大模型训练的实践吗，有哪些收获或者感悟？

坦白讲，这些问题对于有过大模型项目经验的人来说应该问题不大，尤其是有NLP背景的。但是如果目前工作内容和大模型无关，想要比较好的回答出上述问题还是有难度的。要准备好八股文，要对前沿的方向有了解，而且最好自己跑过大模型的训练，包括微调和对齐。