比GPT-3更擅长理解用户意图，OpenAI发布InstructGPT-技术圈

大数据文摘授权转载自数据实战派

作者：青苹果

近日，OpenAI 发布了一项令人瞩目的研究—— InstructGPT。

在这项研究中，相比 GPT-3 而言，OpenAI 采用对齐研究（alignment research），训练出更真实、更无害，而且更好地遵循用户意图的语言模型 InstructGPT。论文题为 Training language models to follow instructions with human feedback。

以往，GPT-3 也很可能产生不真实、有害或反映不良情绪的输出。这在一定程度上是因为，在互联网文本的大数据集上，训练 GPT-3 来完成下一个单词的预测，并非是安全地执行用户想要的语言任务。换句话说，这些模型与其用户可能实际上并不一致。

为了让模型更安全、更有用、更一致，OpenAI 使用了一种称为从人类反馈中强化学习（RLHF，Reinforcement Learning from Human Feedback）的现有技术。根据客户向 API 提交的反馈，OpenAI 对模型的多个输出进行排序。然后，OpenAI 使用这些数据来微调 GPT-3。

由此产生的 InstructGPT 模型，在遵循指令方面，远比 GPT-3 要好得多。而且，它们也较少的凭空捏造事实，有害输出的产生呈现小幅下降趋势。InsructGPT 的参数量为 1.3 B。

InstructGPT 模型，已经在 API 上进行了一年多的测试，现已成为 API 上可访问的默认语言模型。OpenAI 相信，用 RLHF 的解决方案来微调语言模型是提高安全性和可靠性的强大工具。

这也是团队多年来首次将对齐研究应用到产品上。

实验结果

OpenAI 将 InstructGPT 的输出与 GPT-3 的输出进行比较，以评估InstructGPT 的输出是否很好地遵循了用户指令。

结果发现，在 API 上，对于提交给 InstructGPT 和 GPT-3 模型的提示，InstructGPT 模型明显更受欢迎。当 OpenAI 为 GPT-3 提示符添加一个前缀，使其进入“指令跟随模式”时，这一点是成立的。

为了衡量模型的安全性，OpenAI 主要在公开可用的数据集上使用了一套现有的度量指标。

与 GPT-3 相比，InstructGPT 产生的模仿性谎言更少，危害更小。OpenAI 还对 API 提示分布展开了人工评估，结果显示，InstructGPT 捏造事实（“幻觉”）的频率更低，而且还能生成更恰当的输出。

最后，OpenAI 发现在客户分布上，InstructGPT 的输出要优于那些来自 FLAN 和 T0 的输出。这表明用于训练 FLAN 模型和 T0 模型的数据，主要是学术 NLP 任务，并不能完全代表部署的语言模型在实践中的使用情况。

为了训练 InstructGPT 模型，OpenAI 的核心技术是 RLHF，这是 OpenAI 在早期对齐研究中帮助开发的一种方法。该技术利用人类的偏好作为奖励信号来微调模型，这一点很重要，因为 OpenAI 旨在解决的安全性和对齐问题是复杂且主观的，并且无法被简单的自动度量指标所捕获。

OpenAI 首先在提交给 API 的提示上收集人工编写的演示数据集，然后用它来训练监督学习的基线。

接下来，在更大的 API 提示集上收集两个模型输出之间的人工标记的比较数据集。然后，在此数据集上训练奖励模型（RM，Reward Model），以预测 labelers 更偏爱哪一种输出。最后，使用 RM 作为奖励函数，并通过 PPO 算法微调 GPT-3 策略来最大化这个奖励。

可以用以下方式来思考上述过程，它“解锁”了 GPT-3 已经具备的功能，但很难仅通过提示工程（promptengineering）来实现：这是因为相对于预训练学到的知识而言，OpenAI 的训练程序在帮助模型 get 更多技能方面的确能力有限。相比于模型预训练，它使用的计算和数据甚至不足 2%。

这种方法的局限性在于它引入了“对齐税”（alignment tax）：模型如果只对齐客户任务，可能会使其在其他一些学术 NLP 任务上的性能表现更差。

显然，这是不可取的，因为如果 OpenAI 的对齐技术使模型在人们关心的任务上变得更糟，那么，他们在实践中被采用的可能性会有多小便可想而知。不过，OpenAI 发现了一种简单的算法更改，可以最小化这种对齐税：在 RL 微调期间，OpenAI 混合了一小部分用于训练 GPT-3 的原始数据，并使用正常的对数似然最大化训练这些数据。

这大致维持了安全性和人类偏好的表现，同时还降低了学术任务的性能表现，在某些情况下甚至超过了 GPT-3 的基线。

推广到更广泛的偏好

OpenAI 使模型的行为与 labelers 的偏好相一致，labelers 直接产生用于训练模型的数据，而研究人员则通过书面指示、对具体例子的直接反馈和非正式对话为 labelers 提供指导。

此外，模型还受到客户和 API 政策中隐含偏好的影响。

OpenAI 选择了在筛选测试中表现良好的 labelers，既可以识别敏感提示，又可以对敏感提示迅速做出响应。然而，这些对数据产生影响的不同来源并不能保证，模型会与任何更广泛群体的偏好相一致。

OpenAI 开展了两个实验来研究这个问题。

首先，使用未产生任何训练数据的保留 labelers 来评估 GPT-3 和 InstructGPT 模型，并发现这些 labelers 更喜欢 InstructGPT 模型的输出。

其次，用来自子集的数据训练奖励模型，并发现它们可以很好进行推广，以预测不同 labelers 子集的偏好。这也就表明，模型并非只完全适合于 OpenAI 的训练 labelers 的偏好。

然而，还需要更多的工作来研究这些模型如何在更广泛的用户群体中执行，以及他们如何在人们对预期行为有异议的输入中执行。

局限性

尽管该研究取得了重大进展，但 InstructGPT 模型距离完全对齐或完全安全仍任重而道远；他们仍然会产生有害或有偏见的结果/捏造事实，并在没有明确提示的情况下产生性和暴力的相关内容。但机器学习系统的安全性不仅取决于底层模型的行为，还取决于这些模型的部署方式。

为了支持 API 的安全性，OpenAI 将在潜在的 App 上线之前继续审核，提供内容过滤器来检测安全性，并监视滥用情况。

训练模型遵循用户指令的副产品是，如果指示它们产生不安全的输出，它们可能更容易被滥用。解决这个问题就需要模型学会拒绝，视情况筛选指令；显然，帮助模型可靠的完成这一点，是 OpenAI 非常乐意解决的一个重要的开放研究问题。

此外，也有很多情况，可能并不希望与平均 labelers 偏好保持一致。例如，当生成不成比例地影响少数群体的文本时，该群体的偏好应该得到更大的权重。

现在，InstructGPT 接受的训练是遵循英文指令；因此，它偏向于以英语为母语的群体的文化价值观。

当然，OpenAI 正在进行研究，以了解 labelers 偏好之间的差异和分歧，以便于根据更具体的人群的价值观来具体设置模型。

总而言之，这是 OpenAI 首次将对齐研究应用到产品上。这些技术可以显著有效地改善通用 AI 系统与人类意图的一致性。这也只是一个开始，OpenAI 表示，将继续推动这些技术，以进一步改进当前和未来的模型，使之朝着对人类安全且有益的语言工具的方向发展。

点「在看」的人都变好看了哦！