简介
Nanotron 是一个专注于 Transformer 预训练的库,旨在简化从单节点到多节点(包括 Slurm/多卡)的大规模训练流程,同时兼顾性能与易用性,适合研究与工程使用。
主要特性
- 支持 3D 并行(DP/TP/PP)、MoE、参数切分与自定义 checkpoint 策略。
- 提供丰富的例子与配置(config 与 examples),包含快速训练、量化与调试工具。
- 性能优化:融合核、CUDA timing、对大规模训练的基准与调优建议。
使用场景
- 在自定义数据集上进行 Transformer 的预训练与规模化实验。
- 构建高效训练流水线以评估不同并行/调度策略的性能差异。
- 用于研究新型并行方法、MoE 或训练优化技术的原型实现。
技术特点
- 以 Python 为主,核心性能通过融合核与并行策略保证;提供多节点与 Slurm 支持。
- 带有完整的 benchmark 与 Ultrascale Playbook,便于复制最佳配置。
- Apache-2.0 许可证,社区活跃,文档与示例完善。