TRL使用强化学习来训练语言模型-技术圈

TRL使用强化学习来训练语言模型

联合创作 · 2023-09-26 00:02

TRL (Transformer Reinforcement Learning) 是 Hugging Face 推出的一个具有强化学习功能的全栈 Transformer 语言模型。

TRL 是一个完整的堆栈库，Hugging Face 提供了一组工具来通过强化学习训练 Transformer 语言模型，从监督微调步骤 (SFT)、奖励建模步骤 (RM) 到近端策略优化 (PPO) 步骤。该库是建立在Hugging Face 的transformers库之上。因此，预训练的语言模型可以通过transformers直接加载。目前支持大多数解码器架构和编码器-解码器架构。

Highlights：

SFTTrainer：transformersTrainer 的轻量且友好的包装器，可轻松微调自定义数据集上的语言模型或适配器。
RewardTrainer：transformersTrainer 的轻量级包装，可根据人类偏好轻松调整语言模型（奖励建模）。
PPOTrainer：语言模型的 PPO 训练器，只需要（查询、响应、奖励）三元组来优化语言模型。
AutoModelForCausalLMWithValueHead& AutoModelForSeq2SeqLMWithValueHead：一个 transformer 模型，每个标记都有一个额外的标量输出，可以用作强化学习中的值函数。
示例：训练 GPT2 使用 BERT 情感分类器生成积极的电影评论、仅使用适配器的完整 RLHF、训练 GPT-j 以降低毒性、Stack-Llama 示例等。

编辑分享