简介
Megatron-LM 是 NVIDIA 提供的大规模语言模型训练参考实现,聚焦 GPU 优化、张量/流水线并行与高性能数据加载,适用于训练数十亿到万亿参数级别的模型。
主要特性
- 支持多种并行策略(Tensor/Pipeline/Context/FSDP)。
- 集成优化内核与混合精度(FP16/BF16/FP8)。
- 丰富的训练示例与端到端脚本。
使用场景
- 大规模 LLM 训练与研究。
- 分布式训练性能调优与内核验证。
技术特点
- 基于 PyTorch,提供可组合的 Megatron Core 模块。
- 面向 NVIDIA 硬件做了内核与内存优化,兼容 Transformer Engine 等加速库。