简介
Machine Learning Engineering 是一个开源的工程手册(Open Book),汇集作者在大规模模型训练、推理与工程化方面的实战经验。该项目面向 ML 工程师与训练/推理运维人员,内容涵盖算力选型、存储方案、网络优化、训练分布式策略、推理与测试等工程必备主题,适合作为参考手册与教学材料。
主要特性
- 广泛覆盖:从硬件(加速器、存储、网络)到训练、推理与排错的系统性指南。
- 实用工具与脚本:包含 benchmark、调试脚本和示例配置,便于工程师复现与排查问题。
- 社区驱动:长期维护与大量贡献者、丰富的讨论与资源链接。
使用场景
- 需要搭建或优化大规模模型训练与推理集群的工程团队。
- 教学与培训:可作为机器学习工程课程的参考教材。
- 迁移或选择云/本地算力架构时的决策参考。
技术特点
- 内容以 Markdown 文档组织,包含大量实践指南与对比表格,适合持续维护与版本化发布。
- 兼顾训练与推理两类工程需求,提供分布式训练、SLURM、网络与 I/O 优化等实战经验。
- 提供 PDF 版本与在线文档链接,支持不同阅读场景。