详细介绍
Awex 是一个面向强化学习(RL, Reinforcement Learning)训练 - 推理流程的高性能权重同步框架,旨在实现训练端到推理端的秒级参数更新,保证 rollout 阶段使用最新模型权重。该框架可在千万到万亿参数规模上运行,适配多种并行策略与部署拓扑,显著减少模型更新延迟并提高推理一致性。
主要特性
- 极致同步速度:在千 GPU 级集群上,可实现 10B 级模型数秒内交换;
- 统一权重适配层:自动处理张量布局与并行策略差异,支持任意模型架构;
- 零冗余传输与就地更新:仅传输必要分片,支持推理时的就地 GPU 内存更新;
- 多模式传输:支持 NCCL、RDMA 与共享内存,兼顾带宽与延迟。
使用场景
适用于需要将训练结果快速反馈到在线推理的场景,例如强化学习训练中频繁更新策略并在 rollout / 评估阶段保持最新权重的系统、需要低延迟参数热更新的推理集群,以及训练与推理异构部署(共址或分离)的混合场景。
技术特点
Awex 通过集中元数据服务(MetaServer)与 P2P 传输计划,构建可确定性的分片传输执行流程,兼容 NCCL 与 RDMA 网络后端,并提供张量级验证以保证传输正确性;其可扩展的模块化设计便于支持新的训练或推理引擎,并在工业级集群上做到高吞吐、低尾延迟。