📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Machine Learning Engineering

开放的 Machine Learning Engineering 教程与实用手册,覆盖算力、存储、网络、训练与推理等工程实践。

简介

Machine Learning Engineering 是一个开源的工程手册(Open Book),汇集作者在大规模模型训练、推理与工程化方面的实战经验。该项目面向 ML 工程师与训练/推理运维人员,内容涵盖算力选型、存储方案、网络优化、训练分布式策略、推理与测试等工程必备主题,适合作为参考手册与教学材料。

主要特性

  • 广泛覆盖:从硬件(加速器、存储、网络)到训练、推理与排错的系统性指南。
  • 实用工具与脚本:包含 benchmark、调试脚本和示例配置,便于工程师复现与排查问题。
  • 社区驱动:长期维护与大量贡献者、丰富的讨论与资源链接。

使用场景

  • 需要搭建或优化大规模模型训练与推理集群的工程团队。
  • 教学与培训:可作为机器学习工程课程的参考教材。
  • 迁移或选择云/本地算力架构时的决策参考。

技术特点

  • 内容以 Markdown 文档组织,包含大量实践指南与对比表格,适合持续维护与版本化发布。
  • 兼顾训练与推理两类工程需求,提供分布式训练、SLURM、网络与 I/O 优化等实战经验。
  • 提供 PDF 版本与在线文档链接,支持不同阅读场景。

评论区

Machine Learning Engineering
资源信息
🌱 开源 📖 教程 🏋️ 模型训练