简介
AReaL(Asynchronous Reinforcement Learning)是一个高可扩展的异步 RL 训练系统,设计用于大规模 LLM 推理与代理训练,支持多种训练后端、分布式配置与算法模块化。
主要特性
- 全异步训练流水线以提高资源利用率与吞吐。
- 丰富的训练/推理后端集成(vLLM、Megatron、FSDP、Ray 等)。
- 针对科研与工程的可配置化与可复现工具链。
使用场景
- 大规模 RLHF / 代理训练。
- 算法研究与快速原型验证。
技术特点
- 以 Python 为主实现,提供文档与示例以便上手。