verl RL 训练库

联合创作 · 2025-03-04 09:48

verl 是一个灵活、高效且可用于生产的 RL 训练库,适用于大型语言模型 (LLM)。

verl 是 HybridFlow:一种灵活高效的 RLHF 框架 论文的开源实现。

verl 灵活且易于使用:

  • 轻松扩展各种 RL 算法:混合编程模型结合了单控制器和多控制器范式的优势,能够灵活地表示和高效执行复杂的训练后数据流。允许用户用几行代码构建 RL 数据流。

  • 现有 LLM 基础架构与模块化 API 无缝集成:解耦计算和数据依赖关系,实现与现有 LLM 框架(如 PyTorch FSDP、Megatron-LM 和 vLLM)无缝集成。此外,用户可以轻松扩展到其他 LLM 训练和推理框架。

  • 灵活的设备映射:支持将模型放置到不同的 GPU 组上,以实现高效的资源利用率和跨不同集群规模的可扩展性。

  • 轻松与流行的 HuggingFace 模型集成

verl 速度很快:

  • 最先进的吞吐量:通过无缝集成现有的 SOTA LLM 训练和推理框架,verl 实现了高生成和训练吞吐量。

  • 使用 3D-HybridEngine 进行高效的演员模型重新分片:消除内存冗余并显著减少训练和生成阶段之间转换期间的通信开销

主要特点

  • FSDPMegatron-LM用于训练。
  • vLLMTGI用于推出生成,SGLang支持即将推出。
  • huggingface 模型支持
  • 监督微调
  • 使用PPOGRPOReMaxReinforce++RLOO等 从人类反馈中进行强化学习

    • 支持基于模型的奖励和基于函数的奖励(可验证的奖励)

  • flash-attention、序列打包、通过 DeepSpeed Ulysses、LoRALiger-kernel提供长上下文支持
  • 可扩展至 70B 模型和数百个 GPU
  • 使用 wandb、swanlab 和 mlflow 进行实验跟踪

浏览 90
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报