大数据文摘授权转载自数据实战派作者:青苹果 近日,OpenAI 发布了一项令人瞩目的研究—— InstructGPT。 在这项研究中,相比 GPT-3 而言,OpenAI 采用对齐研究(alignment research),训练出更真实、更无害,而且更好地遵循用户意图的语言模型 InstructGPT。论文题为 Training language models to follow instructions with human feedback。 以往,GPT-3 也很可能产生不真实、有害或反映不良情绪的输出。这在一定程度上是因为,在互联网文本的大数据集上,训练 GPT-3 来完成下一个单词的预测,并非是安全地执行用户想要的语言任务。换句话说,这些模型与其用户可能实际上并不一致。 为了让模型更安全、更有用、更一致,OpenAI 使用了一种称为从人类反馈中强化学习(RLHF,Reinforcement Learning from Human Feedback)的现有技术。根据客户向 API 提交的反馈,OpenAI 对模型的多个输出进行排序。然后,OpenAI 使用这些数据来微调 GPT-3。 由此产生的 InstructGPT 模型,在遵循指令方面,远比 GPT-3 要好得多。而且,它们也较少的凭空捏造事实,有害输出的产生呈现小幅下降趋势。InsructGPT 的参数量为 1.3 B。InstructGPT 模型,已经在 API 上进行了一年多的测试,现已成为 API 上可访问的默认语言模型。OpenAI 相信,用 RLHF 的解决方案来微调语言模型是提高安全性和可靠性的强大工具。这也是团队多年来首次将对齐研究应用到产品上。