📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Megatron-LM

用于大规模训练与推理的参考实现,面向分布式训练与高性能优化。

简介

Megatron-LM 是 NVIDIA 提供的大规模语言模型训练参考实现,聚焦 GPU 优化、张量/流水线并行与高性能数据加载,适用于训练数十亿到万亿参数级别的模型。

主要特性

  • 支持多种并行策略(Tensor/Pipeline/Context/FSDP)。
  • 集成优化内核与混合精度(FP16/BF16/FP8)。
  • 丰富的训练示例与端到端脚本。

使用场景

  • 大规模 LLM 训练与研究。
  • 分布式训练性能调优与内核验证。

技术特点

  • 基于 PyTorch,提供可组合的 Megatron Core 模块。
  • 面向 NVIDIA 硬件做了内核与内存优化,兼容 Transformer Engine 等加速库。

评论区

Megatron-LM
资源信息
作者 NVIDIA
添加时间 2025-10-02
开源时间 2019-03-21
标签
机器学习平台 开源