📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

verl

用于大模型的强化学习训练框架,面向大规模 RLHF 与 agent 训练的可扩展项目。

简介

verl 是一个面向大模型的强化学习(RL)训练框架,提供高性能的 RLHF/agent 训练流水线,支持 FSDP、Megatron 等分布式后端。

主要特性

  • 支持 PPO、GRPO、DAPO 等多种 RL 算法和训练配方
  • 与 vLLM、SGLang、Hugging Face 等推理/模型生态集成
  • 面向大规模多 GPU / 专家并行的可扩展实现

使用场景

  • 训练基于 LLM 的对齐模型(RLHF)和代理(agent)
  • 研究与复现强化学习训练配方与基线
  • 在大规模集群上做模型性能与吞吐率调优

技术特点

  • 支持 FSDP/FSDP2、Megatron、vLLM 后端与混合并行策略
  • 可扩展的 recipe 与模块化训练流水线
  • 丰富的示例、文档与社区贡献,适合生产化改造

评论区

verl
资源信息
作者 字节跳动
添加时间 2025-09-13
标签
数据与训练 开发与调试工具 开源项目 项目