verl RL 训练库

联合创作 · 2025-03-04 09:48

verl 是一个灵活、高效且可用于生产的 RL 训练库，适用于大型语言模型 (LLM)。

verl 是 HybridFlow：一种灵活高效的 RLHF 框架 论文的开源实现。

verl 灵活且易于使用：

轻松扩展各种 RL 算法：混合编程模型结合了单控制器和多控制器范式的优势，能够灵活地表示和高效执行复杂的训练后数据流。允许用户用几行代码构建 RL 数据流。

现有 LLM 基础架构与模块化 API 无缝集成：解耦计算和数据依赖关系，实现与现有 LLM 框架（如 PyTorch FSDP、Megatron-LM 和 vLLM）无缝集成。此外，用户可以轻松扩展到其他 LLM 训练和推理框架。

灵活的设备映射：支持将模型放置到不同的 GPU 组上，以实现高效的资源利用率和跨不同集群规模的可扩展性。

轻松与流行的 HuggingFace 模型集成

verl 速度很快：

最先进的吞吐量：通过无缝集成现有的 SOTA LLM 训练和推理框架，verl 实现了高生成和训练吞吐量。

使用 3D-HybridEngine 进行高效的演员模型重新分片：消除内存冗余并显著减少训练和生成阶段之间转换期间的通信开销

主要特点

FSDP和Megatron-LM用于训练。

vLLM和TGI用于推出生成，SGLang支持即将推出。

huggingface 模型支持

监督微调

使用PPO、GRPO、ReMax、Reinforce++、RLOO等从人类反馈中进行强化学习
- 支持基于模型的奖励和基于函数的奖励（可验证的奖励）

flash-attention、序列打包、通过 DeepSpeed Ulysses、LoRA、Liger-kernel提供长上下文支持

可扩展至 70B 模型和数百个 GPU

使用 wandb、swanlab 和 mlflow 进行实验跟踪

浏览 141

点赞

收藏

分享

举报

评论

图片

表情

verl RL 训练库

verl是一个灵活、高效且可用于

CVNets计算机视觉网络训练库

CVNets是一个计算机视觉工具包，它允许研究人员和工程师为各种任务训练标准和移动/非移动计算机视觉模型，包括对象分类、对象检测、语义分割和基础模型（例如，CLIP）。安装建议使用Python3.8+

Petastorm深度学习分布式训练库

Petastorm 是由 Uber ATG(Advanced Technologies Group)

CVNets计算机视觉网络训练库

CVNets 是一个计算机视觉工具包，它允许研究人员和工程师为各种任务训练标准和移动/非移动计算机视

Petastorm深度学习分布式训练库

Petastorm是由UberATG(AdvancedTechnologiesGroup)开发的开源数据访问库。这个库可以直接基于数TBParquet格式的数据集进行单机或分布式训练和深度学习模型评估

RL CoachPython 强化学习框架

RL Coach 是一个Python 强化学习框架，由英特尔 2017 年推出，包含许多最先进算法的

重磅开源！FAIR发布自监督训练库VISSL！

机器学习算法工程师

RL CoachPython 强化学习框架

RLCoach是一个Python强化学习框架，由英特尔2017年推出，包含许多最先进算法的实现。RLCoach只是英特尔真正的人工智能生态系统中的几个工具之一。它以模块化的方式对代理和环境之间的交互进

Facebook开源Opacus库，利用差分隐私训练PyTorch模型，快速训练又保护隐私

RLHF vs RL「AI」F，谷歌实证：大模型训练中人类反馈可被AI替代

点赞

收藏

分享

举报