简介
DualPipe 提出了一种双向流水线并行(bidirectional pipeline parallelism)算法,用于在流水线并行训练中实现计算与通信的高效重叠,从而提高整体训练吞吐与硬件利用率。该算法在 DeepSeek V3/R1 训练场景中被用于减少通信阻塞并提升训练效率。
主要特性
- 支持双向流水线并行以增强计算 - 通信重叠。
- 设计用于与现有流水线并行框架集成,降低集成成本。
- 提供示例和实现细节帮助用户在自有训练管线中复现并优化。
使用场景
- 大规模流水线并行训练场景,尤其是跨多个节点或多 GPU 拓扑结构下。
- 在训练过程中需要通过算法设计减少通信等待以提高吞吐的场景。
- 研究与工程团队在探索更高效并行策略时的参考实现与基线。
技术特点
- 双向流水线安排以实现更好的流水线利用率与通信重叠。
- 关注调度策略与激活/梯度的传输时序以减少空闲时间。
- 可与多种并行策略组合使用,便于在复杂训练拓扑中部署。