RLinf

RLinf 是一个灵活可扩展的开源强化学习基础设施,专为具身智能和智能体 AI 设计,支持 PPO、GRPO、SAC 等多种 RL 训练流程,可无缝扩展至大规模 GPU 集群。

RLinf Team · Since 2025-08-15
正在加载评分...

详细介绍

RLinf 是一个灵活且可扩展的开源强化学习基础设施,专为具身智能和智能体 AI 设计。名称中的 “inf” 代表 Infrastructure(基础设施),强调其作为下一代训练系统骨干的定位;同时也代表 Infinite(无限),象征系统对开放式学习、持续泛化和智能发展无限可能的支持。该项目由清华大学团队主导开发,已发布 v0.2 版本,在生产环境中被多家领先企业和初创公司采用。

主要特性

  • 高灵活性:支持多种 RL 训练流程(PPO、GRPO、SAC、DAPO 等),隐藏分布式编程复杂度。
  • 高性能:混合执行模式在具身 RL 场景下相比现有框架实现最高 2.434 倍吞吐提升。
  • 多后端集成:支持 FSDP + HuggingFace/SGLang/vLLM 快速原型开发,以及 Megatron + SGLang/vLLM 大规模高效训练。
  • 全面的环境支持:覆盖 ManiSkill、LIBERO、RoboTwin、IsaacLab、CALVIN 等仿真器,以及 Franka、XSquare Turtle2 等真实机器人。
  • 智能体 RL:支持 SearchR1、rStar2 等智能体在线强化学习,以及 WideSeek-R1 多智能体 RL。

使用场景

  • 具身智能机器人的 RL 训练与微调,包括 VLA 模型(π₀、π₀.₅、OpenVLA 等)的策略优化。
  • 真实世界机器人在线 RL 训练,支持 Franka、Turtle2 等硬件平台。
  • 智能体 AI 的在线强化学习,如搜索推理(SearchR1、rStar2)和多智能体协作(WideSeek-R1)。
  • 基于世界模型的 VLA 后训练,如 WoVR 和 Wan 世界模型驱动的 RL 微调。

技术特点

  • 宏观到微观的流式转换架构,实现高效的大规模分布式 RL 训练。
  • 支持全参数 SFT、LoRA SFT、VLM SFT 以及 DAgger、HG-DAgger 等多种训练范式。
  • 提供 FUSCO 加速 MoE All-to-All 通信,以及 DSRL 扩散策略引导等前沿技术。
  • 完善的 CI 测试覆盖,包括单元测试和端到端 RL 训练工作流测试。
  • 可通过 PyPI 直接安装,也可使用提供的 Docker 镜像快速部署。
RLinf
评分详情

状态标签

属性标签

🏋️ 模型训练 🏗️ 框架