第十届中国开源年会,12月6-7日,北京, 查看详情

Awex

一个面向强化学习训练 - 推理的高性能权重同步框架,支持在推理侧实现秒级参数更新。

详细介绍

Awex 是一个面向强化学习(RL, Reinforcement Learning)训练 - 推理流程的高性能权重同步框架,旨在实现训练端到推理端的秒级参数更新,保证 rollout 阶段使用最新模型权重。该框架可在千万到万亿参数规模上运行,适配多种并行策略与部署拓扑,显著减少模型更新延迟并提高推理一致性。

主要特性

  • 极致同步速度:在千 GPU 级集群上,可实现 10B 级模型数秒内交换;
  • 统一权重适配层:自动处理张量布局与并行策略差异,支持任意模型架构;
  • 零冗余传输与就地更新:仅传输必要分片,支持推理时的就地 GPU 内存更新;
  • 多模式传输:支持 NCCL、RDMA 与共享内存,兼顾带宽与延迟。

使用场景

适用于需要将训练结果快速反馈到在线推理的场景,例如强化学习训练中频繁更新策略并在 rollout / 评估阶段保持最新权重的系统、需要低延迟参数热更新的推理集群,以及训练与推理异构部署(共址或分离)的混合场景。

技术特点

Awex 通过集中元数据服务(MetaServer)与 P2P 传输计划,构建可确定性的分片传输执行流程,兼容 NCCL 与 RDMA 网络后端,并提供张量级验证以保证传输正确性;其可扩展的模块化设计便于支持新的训练或推理引擎,并在工业级集群上做到高吞吐、低尾延迟。

Awex