关于本书

提示
本文是对英文原版的介绍,中文版由 Jimmy Song 独立翻译,保留了图书的原意和结构,去掉了测验及交互式内容。

概述

本节将介绍本书的编写初衷、开发背景,以及读者在学习过程中可以获得哪些收获。

写作目的

本书旨在为教育者和学习者提供一套系统、实用的机器学习系统原理与工程实践资源。内容持续更新,融入最新洞见与高效教学策略,力求在快速变化的领域中始终保持前沿与实用性。欢迎大家常来查阅!

背景与发展

本书起源于学生、研究者和业界实践者的协作努力。我们在保持学术严谨性的同时,注重实际应用价值,并通过定期更新和精心策划,持续反映机器学习系统领域的最新进展。

读者预期

本教材采用循序渐进的教学设计,模拟 ML 系统工程师成长路径,分为五个阶段:

阶段一:理论 —— 通过“基础篇章”和“设计原则”构建概念根基,建立系统性思维模型。

阶段二:性能 —— 掌握“性能工程”,将理论转化为能在真实资源受限环境下高效运行的系统。

阶段三:实践 —— 深入“稳健部署”,学会让系统在开发环境之外也能可靠运行。

阶段四:伦理 —— 探索“可信系统”,确保你的系统对社会有益且可持续。

阶段五:前沿 —— 展望“ML 系统前沿”,理解新兴范式,为下一代挑战做好准备。

实验环节 安排在核心理论基础之后,帮助你在多种嵌入式平台上动手实践。全书穿插有 小测验,便于在关键节点自查理解。

教学理念:基础为先

机器学习系统本质上是复杂的工程挑战,但它们都由一系列基础模块构建而成,只有真正理解这些基石,才能进阶到更复杂的实现。这一教学理念与传统教育路径一致:学生需先掌握基础算法,才能学习分布式系统;先精通线性代数,才能深入机器学习理论。ML 系统同样有其不可或缺的基础组成部分,是后续学习的根基。

我们的课程强调以下核心能力:

  • 模型与硬件的交互机制
  • 数据在系统中的流动模式
  • 计算模式的涌现与优化
  • 单体系统内的优化原理

通过对这些基础的深入理解,学生将具备分析复杂场景(如分布式训练架构、多设备协同协议、新兴技术范式)的能力。

“基础为先”的方法论强调概念深度而非表面广度,帮助学生构建持久的知识体系,为未来职业生涯中的 ML 系统演进打下坚实基础。

学习目标

本节介绍本书的教学框架及具体学习目标。

关键学习成果

本书结构参考 布鲁姆认知目标分类 (见下图),涵盖从基础知识到高级创新的六个层级:

图 1: 布鲁姆认知目标分类(2021 版)。
图 1: 布鲁姆认知目标分类(2021 版)。
  1. 记忆:回忆基本事实和概念。
  2. 理解:解释思想或过程。
  3. 应用:在新情境中运用知识。
  4. 分析:将信息分解为组成部分。
  5. 评价:基于标准做出判断。
  6. 创造:产出原创作品或解决方案。

学习目标

本书帮助读者在 ML 系统全生命周期内培养实战能力:

  1. 系统思维:理解 ML 系统与传统软件的区别,掌握软硬件协同原理。
  2. 流程工程:设计端到端 ML 流水线,从数据工程到部署与运维。
  3. 性能优化:系统性提升系统速度、体积与资源效率。
  4. 生产部署:应对可靠性、安全、隐私与可扩展性等实际挑战。
  5. 负责任开发:把握伦理影响,构建可持续、利于社会的 AI 系统。
  6. 前瞻能力:具备评估新兴技术与适应变革的判断力。
  7. 动手实践:在多样嵌入式平台和资源受限环境中积累实战经验。
  8. 自主学习:借助集成测评与交互工具,持续跟踪进步、深化理解。

AI 学习助手

全书配备 SocratiQ AI 学习助手,提升你的学习体验。SocratiQ 借鉴苏格拉底式教学法,结合互动测验、个性化辅导和实时反馈,帮助你巩固理解、建立知识关联。作为生成式 AI 技术的集成示例,SocratiQ 鼓励批判性思考和主动学习。

SocratiQ 仍在持续完善,欢迎反馈建议。详情请参阅 AI 学习助手页面

如何使用本书

书籍结构

本书从 ML 系统的概念理解到实际构建与部署,分为以下部分:

核心内容:

  1. 基础篇章 夯实根基。 理解 ML 系统与传统软件的差异,掌握软硬件栈,熟悉基本架构与数学基础。
  2. 设计原则 工程化全流程。 学习端到端流水线设计,解决复杂数据工程难题,选择合适框架,组织大规模训练。
  3. 性能工程 面向真实约束优化。 掌握模型优化、硬件加速与系统性性能分析,让系统更快、更小、更高效。
  4. 稳健部署 打造生产级系统。 从单设备约束到系统级运维,掌握端上学习、安全隐私、鲁棒性与 ML 运维。
  5. 可信系统 负责任设计。 探索 ML 系统的社会与环境影响,践行负责任 AI,创造造福社会的技术。
  6. ML 系统前沿 面向未来。 理解新兴范式,预判未来挑战,培养评估新技术的能力。

实践环节:

  1. 实验练习 学以致用。 从微控制器到边缘计算平台,体验嵌入式 ML 的资源约束与优化挑战。

推荐阅读路径

  • 初学者:从“基础篇章”入手,建立概念体系,再进入“设计原则”并选择相关实验练习。
  • 工程实践者:重点阅读“设计原则”、“性能工程”和“稳健部署”,结合平台实验提升实战能力。
  • 研究人员:关注“性能工程”、“可信系统”与“ML 系统前沿”,并参考工具实验室的对比分析。
  • 动手型学习者:结合任意核心内容与 Arduino、Seeed、Grove Vision、树莓派等实验,获得全面实践体验。

针对不同背景的学生

本书欢迎来自计算机、工程、数学等多学科背景的学生。理解 ML 系统与既有知识的联系,有助于将理论转化为实践:

计算机专业学生:ML 系统是算法与数据结构在新领域的延伸。你可以将 ML 理解为自动根据数据模式自我优化的算法,而非固定指令。

你在系统设计、内存管理、并行处理和分布式系统方面的经验,可直接应用于 ML 部署。训练与推理阶段的时间和空间复杂度分析同样适用。

电子与计算机工程学生:ML 系统是信号处理与控制系统原理的自然进化。机器学习可视为从高维噪声信号中提取有意义模式的高级信号处理。

神经网络的卷积层本质上就是你学过的卷积操作。你对计算机系统结构和内存层级的理解,有助于优化大规模训练系统中的数据流动。

其他专业学生:可将 ML 系统类比为现代工厂流水线。正如工厂通过各环节协作将原材料变为成品,ML 系统通过各组件协作将原始数据转化为有用预测。

数学(线性代数、概率、微积分)是这条“流水线”的工具,但无需精通工具也能理解整体流程。大多数概念可通过具体案例理解,比如推荐系统就像图书管理员根据你的借阅历史推荐书籍。

关键能力是系统思维:理解数据管道、训练流程和部署基础设施如何协同,就像供应链、制造和分销在复杂运营中必须协调一样。

模块化设计

本书支持灵活学习,既可按章节独立阅读,也可遵循推荐路径。每章包含:

  • 互动测验,自测与巩固知识
  • 实践练习,理论与实现结合
  • 实验体验,平台化动手学习

我们倡导内容迭代开发——有价值的见解会及时分享,而非等到“完美”才发布。你的反馈将帮助我们持续优化内容。

本书也借鉴并致敬领域专家的优秀成果,致力于打造知识共享、协作共进的学习生态。

透明与协作

本书起源于社区驱动项目,由哈佛大学 CS249r 学生、校内外同仁及 ML 系统社区共同推动。内容通过开放协作、反馈和现代编辑工具(包括规则脚本和生成式 AI 技术)不断完善。值得一提的是,正是我们研究的这些系统,也在帮助完善本书,展现了人机协作的魅力。当然,它们还远未能独立完成系统工程——至少目前还不行。

作为主要作者、编辑与策划者,我(Vijay Janapa Reddi 教授)始终保持人工审核,确保教材内容准确、前沿且高质量。当然,任何人都难免有疏漏,欢迎大家反馈指正。协作模式对于保证质量、开放知识和全球共享至关重要。

版权与许可

本书为开源项目,通过 GitHub 协作开发。除非另有说明,内容采用 知识共享署名 - 非商业性使用 - 相同方式共享 4.0 国际许可协议(CC BY-NC-SA 4.0) 授权。

贡献者对各自贡献保留著作权,可选择公有领域或与原项目相同的开源协议。详情请见 GitHub 仓库

加入社区

本教材不仅是学习资源,更是协作与共学的邀请。欢迎参与 社区讨论 ,分享见解、解决难题,与全球学生、研究者和工程师共同成长。

无论你是初学者、工程实践者还是前沿研究者,你的参与都将丰富我们的学习社区。欢迎自我介绍、分享目标,让我们一起深入理解机器学习系统。

中文版介绍

中文版由 Jimmy Song 独立翻译,完整保留了图书的原意和结构,但去除了测验及交互式内容。中文版未在原书的 GitHub 仓库中,而是由 Jimmy Song 独立维护,并提供 PDF 版本下载。由于采用 Hugo 和标准 Markdown 格式撰写,与英文版的排版和格式略有不同,建议直接 在线阅读 以获得最佳体验。

文章导航

章节完成

恭喜完成本章节!下一章节即将开始。下一章节:系统基础

章节概览

评论区