RLinf

Name: RLinf
Author: RLinf Team

RLinf 是一个灵活可扩展的开源强化学习基础设施，专为具身智能和智能体 AI 设计，支持 PPO、GRPO、SAC 等多种 RL 训练流程，可无缝扩展至大规模 GPU 集群。

RLinf Team · Since 2025-08-15

正在加载评分...

GitHub

详细介绍

RLinf 是一个灵活且可扩展的开源强化学习基础设施，专为具身智能和智能体 AI 设计。名称中的 “inf” 代表 Infrastructure（基础设施），强调其作为下一代训练系统骨干的定位；同时也代表 Infinite（无限），象征系统对开放式学习、持续泛化和智能发展无限可能的支持。该项目由清华大学团队主导开发，已发布 v0.2 版本，在生产环境中被多家领先企业和初创公司采用。

主要特性

高灵活性：支持多种 RL 训练流程（PPO、GRPO、SAC、DAPO 等），隐藏分布式编程复杂度。
高性能：混合执行模式在具身 RL 场景下相比现有框架实现最高 2.434 倍吞吐提升。
多后端集成：支持 FSDP + HuggingFace/SGLang/vLLM 快速原型开发，以及 Megatron + SGLang/vLLM 大规模高效训练。
全面的环境支持：覆盖 ManiSkill、LIBERO、RoboTwin、IsaacLab、CALVIN 等仿真器，以及 Franka、XSquare Turtle2 等真实机器人。
智能体 RL：支持 SearchR1、rStar2 等智能体在线强化学习，以及 WideSeek-R1 多智能体 RL。

使用场景

具身智能机器人的 RL 训练与微调，包括 VLA 模型（π₀、π₀.₅、OpenVLA 等）的策略优化。
真实世界机器人在线 RL 训练，支持 Franka、Turtle2 等硬件平台。
智能体 AI 的在线强化学习，如搜索推理（SearchR1、rStar2）和多智能体协作（WideSeek-R1）。
基于世界模型的 VLA 后训练，如 WoVR 和 Wan 世界模型驱动的 RL 微调。

技术特点

宏观到微观的流式转换架构，实现高效的大规模分布式 RL 训练。
支持全参数 SFT、LoRA SFT、VLM SFT 以及 DAgger、HG-DAgger 等多种训练范式。
提供 FUSCO 加速 MoE All-to-All 通信，以及 DSRL 扩散策略引导等前沿技术。
完善的 CI 测试覆盖，包括单元测试和端到端 RL 训练工作流测试。
可通过 PyPI 直接安装，也可使用提供的 Docker 镜像快速部署。

推荐资源

技术专栏

技术专栏

更多内容

更多内容

AI

AI

云原生

云原生

更多

更多

精选资源

精选资源

交流与反馈

交流与反馈

更多

更多

快速链接

快速链接

微信公众号

微信公众号

微信联系

微信联系

RLinf

详细介绍

主要特性

使用场景

技术特点

评分详情

相关资源

AI-Trader

AReaL

AXLearn