第 1 章:绪论

目标

为什么我们必须掌握能够学习、适应并在大规模环境下运行的系统工程原理?

机器学习是自可编程计算机以来计算领域最重大的变革,使系统能够通过数据而非显式指令来决定行为。这一变革要求建立全新的工程基础,因为传统软件工程原则无法应对基于经验学习和适应的系统。无论是气候建模、医学诊断还是自动驾驶,每一个重大技术挑战都需要能够处理海量数据并在不确定性下可靠运行的系统。理解机器学习系统工程,决定了我们解决超越人类认知极限复杂问题的能力。这一学科为构建可扩展至数据中心和边缘设备的系统奠定了技术基础,是 21 世纪技术进步的基石。

学习目标

  • 定义机器学习系统:由数据、算法和基础设施组成的集成计算系统
  • 通过故障模式分析,区分机器学习系统工程与传统软件工程
  • 解释“AI 三角”框架,分析数据、算法与计算基础设施的相互依赖
  • 追溯 AI 范式从符号系统到统计学习再到深度学习的历史演变
  • 评估 Sutton 的“苦涩教训”对现代机器学习系统工程优先级的影响
  • 比较机器学习系统中的隐性性能退化与传统软件故障模式
  • 分析机器学习系统生命周期阶段,并与传统软件开发进行对比
  • 分类现实世界中机器学习系统面临的数据、模型、系统和伦理挑战
  • 运用五大工程支柱框架分析机器学习系统架构及其相互关系

人工智能工程革命

当今工程实践正处于一个转折点,堪比历史上最具变革性的技术时期。工业革命确立了机械工程以管理物理力量,数字革命则规范了计算工程以应对算法复杂性。而今天,人工智能系统需要全新的工程范式,来管理具备学习行为、自主适应能力和超越传统软件工程方法论的运行规模的系统。

这一转变重新定义了工程系统的本质。传统确定性软件架构依赖显式编程指令,输入输出可预测。而机器学习系统则是概率性架构,其行为源于从训练数据中提取的统计模式。这种转变带来了机器学习系统工程的核心挑战:如何保障系统在“学习而非编程”基础上依然可靠,如何让系统在处理 PB 级1数据并服务数十亿用户时具备可扩展性,以及如何在实际数据分布与训练分布发生偏移时保持系统稳健性。

这些问题奠定了机器学习系统工程作为独立学科的理论与实践基础。本章将为理解这一领域的历史演变和工程原理提供概念基础,融合计算机科学、系统工程和统计学习理论视角,建立系统化分析智能系统的框架。

我们的探讨从人工智能作为研究目标与机器学习作为实现智能行为的计算方法之间的关系展开。随后明确机器学习系统的定义——由数据、算法和基础设施组成的集成计算系统。通过历史分析,梳理 AI 范式从符号推理、统计学习到现代深度学习架构的演变,揭示每一次范式转变都需要新的工程解决方案。这一过程印证了 Sutton 的“苦涩教训”:通用计算方法最终超越手工知识表达,使系统工程成为 AI 进步的核心。

在此技术与历史基础上,我们正式定义这一学科。正如计算机工程从电气工程和计算机科学中独立出来一样,机器学习系统工程专注于在各类计算平台上构建可靠、高效、可扩展的机器学习系统。这一定义既涵盖了实际使用的术语,也明确了工程师们实际构建的技术范围。

在此基础上,我们引入贯穿全书的理论框架。AI 三角模型帮助理解数据、算法与计算基础设施的相互依赖。我们还将机器学习系统生命周期与传统软件开发流程进行对比,突出问题定义、数据处理、模型开发、验证、部署和持续维护等独特阶段。

这些理论框架通过典型部署场景得到验证,展示了不同应用领域对系统架构和工程权衡的多样化需求。从在网络边缘严格延迟约束下运行的自动驾驶,到通过云基础设施服务数十亿用户的推荐系统,这些案例说明部署环境如何塑造系统架构和工程决策。

最终,我们将识别机器学习系统工程作为必要且复杂学科的核心挑战:隐性性能退化需要专门监控,数据质量和分布偏移影响模型有效性,高风险应用中的模型稳健性与可解释性要求,超越传统分布式系统的基础设施可扩展性,以及伦理问题带来的新系统需求。这些挑战构成了全书五大工程支柱框架的基础,将机器学习系统工程划分为互相关联的子学科,支撑构建稳健、可扩展、负责任的人工智能系统。

本章为第一部分“系统基础”奠定理论基础,介绍后续所有机器学习系统工程分析的核心原理。这里提出的概念框架,将在后续章节不断深化和应用,最终形成一套可靠交付 AI 能力的系统工程方法论。

从人工智能愿景到机器学习实践

既然 AI 已在社会各领域产生深远影响,一个核心问题随之而来:我们如何真正实现这些智能能力?理解“人工智能”与“机器学习”的关系,是本书后续内容的关键。

人工智能(AI)是指让系统具备类似人类智能的能力:识别图像、理解语言、决策和解决问题。AI 是“做什么”,即智能机器能够学习、推理和适应的愿景。

机器学习(ML)则是实现智能行为的方法论和实践学科。ML 不是通过预设规则实现智能,而是通过数学方法自动从数据中发现模式,将 AI 的理论转化为实际系统。

以国际象棋系统为例,AI 目标始终如一:“让系统像人类一样下棋”。但实现路径不同:

  • 符号 AI 方法(ML 出现前):程序员编码所有棋规和策略,如“控制中心”、“保护国王”,需要专家手工编写数千条规则,系统在新局面下容易失效。
  • 机器学习方法:让计算机分析数百万棋局,从数据中自动学习获胜策略。无需编码具体走法,系统通过统计分析游戏结果发现制胜模式。

这一转变说明了 ML 为何成为主流:数据驱动系统能适应程序员未预见的情况,而规则系统受限于原始编程。

机器学习系统中的目标识别类似于人类视觉学习,需要大量样本才能建立稳健识别能力。自然语言处理系统同样通过分析海量文本数据获得语言理解能力,体现了 ML 如何将 AI 的智能理解落地为工程实践。这些学习方法都建立在后续将系统化阐述的数学基础之上。

区分 AI 愿景与 ML 方法至关重要,因为现代 ML 的数据驱动方法要求系统能够在大规模环境下收集、处理和学习数据。机器学习作为实现人工智能的实践路径,经历了长期研究和范式转变2,将 AI 理论变为实际系统,成为当今智能能力的算法基础。

核心定义

  • 人工智能(AI):旨在让系统具备人类智能所需的能力,包括学习、推理和适应新环境。
  • 机器学习(ML):通过计算方法自动从数据中发现模式,而非遵循预设规则,实现 AI 目标的实践路径。

从规则驱动 AI 到数据驱动 ML,是计算史上最重要的转变之一。这一变革解释了机器学习系统工程为何成为独立学科:通往智能系统的路径,已转变为如何工程化构建能在大规模环境下高效学习的数据系统。

机器学习系统的定义

在探讨现代机器学习系统的演变之前,必须先明确“机器学习系统”究竟指什么。这一定义为后续历史演变和现实挑战提供了概念框架。

由于领域发展迅速且跨学科,机器学习系统并无统一定义。但基于现代 ML 依赖大规模数据驱动的共识,本教材采用如下系统视角:

机器学习系统

机器学习系统 是由三大核心组成部分构成的集成计算系统:(1)数据,指导算法行为;(2)学习算法,从数据中提取模式;(3)计算基础设施,支持学习过程(即训练)和知识应用(即推理/服务)。三者协同,使系统能够基于学习到的模式进行预测、内容生成或行动决策。

如图 1 所示,任何机器学习系统的核心都是模型/算法、数据和计算基础设施三者构成的三角依赖。每个要素都影响其他要素的可能性。模型架构决定训练和推理的计算需求,以及有效学习所需的数据量和结构。数据的规模和复杂度影响所需的存储和处理基础设施,也决定可行的模型架构。基础设施能力则设定了模型规模和数据处理能力的实际上限,三者必须在同一框架下协同。

图 1: 组件相互依赖:机器学习系统性能依赖于模型、数据和计算基础设施的协同作用;任何一方的限制都会制约整体能力。有效的系统设计需平衡三者依赖,以优化整体性能和可行性。
图 1: 组件相互依赖:机器学习系统性能依赖于模型、数据和计算基础设施的协同作用;任何一方的限制都会制约整体能力。有效的系统设计需平衡三者依赖,以优化整体性能和可行性。

三大组件各自承担独立但互相关联的职责:

  • 算法:通过数学模型和方法,从数据中学习模式,实现预测或决策
  • 数据:涵盖数据收集、存储、处理、管理和服务的流程与基础设施,支持训练与推理
  • 计算:为模型训练、服务和大规模运行提供硬件与软件基础设施

如三角模型所示,任何单一要素都无法独立运行。算法需要数据和算力,大数据集必须依赖算法和基础设施才能发挥价值,基础设施也只有在有算法和数据时才有意义。

太空探索是理解三者关系的绝佳类比。算法开发者如同宇航员探索新领域,数据科学团队则像任务控制中心保障信息和资源流通,计算基础设施工程师则是火箭工程师设计和构建支撑系统。正如太空任务需要宇航员、任务控制和火箭系统的无缝协作,机器学习系统同样要求算法、数据和基础设施的精密配合。

这一依赖关系在 AI 历史上的突破时刻尤为明显。2012 年 AlexNet3的突破,正是硬件与软件协同设计的典范。深度学习革命之所以成功,是因为算法创新(卷积神经网络)与硬件能力(并行 GPU 架构)完美结合。GPU 最初为游戏设计,却被用于 AI 计算,实现了对传统 CPU 的 10-100 倍加速。卷积操作本身高度并行,天然适合 GPU 的数千核心。这种协同设计,至今仍主导着 ML 系统开发。

在确立三大组件框架后,我们必须理解一个根本区别——机器学习系统与传统软件系统的故障表现方式完全不同。

机器学习系统与传统软件的区别

AI 三角框架揭示了机器学习系统的组成:数据指导行为,算法提取模式,基础设施支撑学习和推理。但仅理解这些组件,还不足以把握机器学习系统工程与传统软件工程的本质区别。关键在于系统的故障表现方式

传统软件具有显性故障模式。代码出错时,应用崩溃、错误信息弹出、监控系统报警,反馈及时便于定位和修复。系统要么正常运行,要么明显故障。而机器学习系统则完全不同:即使性能逐渐退化,系统仍能持续运行,传统错误检测机制却无法及时发现。算法继续执行,基础设施持续服务推理,但学习到的行为却越来越不准确或不适应环境。

以自动驾驶感知系统为例。传统汽车软件只有两种状态:发动机控制单元要么正确管理喷油,要么触发诊断警告,故障可通过标准监控手段直接发现。而 ML 感知系统则面临截然不同的挑战:由于季节变化——光照、衣着、天气等训练数据未覆盖的新情况,系统识别行人的准确率可能从 95% 降至 85%。车辆仍在运行,大多数行人仍能被检测,但性能退化带来的安全风险只有通过系统性监控和全面评估才能发现。传统错误日志和报警机制在性能退化时毫无反应,系统却变得不再安全。

这种隐性退化贯穿 AI 三角的所有组件。数据分布随环境变化而漂移:用户行为演变、季节模式出现、新边界情况涌现。算法仍在基于过时模式做预测,无法感知训练分布与实际分布已不匹配。基础设施则持续大规模服务这些日益不准确的预测,问题被放大。推荐系统可能因用户偏好变化和训练数据陈旧,准确率半年内从 85% 降至 60%。系统仍在生成推荐,用户仍在收到结果,基础设施仍报告健康运行,但业务价值却在悄然流失。很多退化源于训练 - 服务偏差,即特征在训练和服务流程中计算方式不同,导致模型性能下降,虽然代码未变,但基础设施问题却表现为算法故障。

这种故障模式的根本差异,决定了机器学习系统工程必须采用全新实践。传统软件开发关注消除 bug 和确保确定性行为。机器学习系统工程则必须应对概率行为、数据分布演变和无代码变更下的性能退化。监控系统不仅要跟踪基础设施健康,还要监控模型性能、数据质量和预测分布。部署流程必须支持数据分布变化下的持续模型更新。整个系统生命周期——从数据收集、模型训练到推理服务——都必须以隐性退化为前提进行设计。

这种运行现实决定了,研究环境下开发的机器学习系统要想落地生产,必须采用专门的工程实践。机器学习系统独特的生命周期和监控需求,正是由这一故障特性决定的,也是机器学习系统工程成为独立学科的根本动力。

理解机器学习系统的故障模式后,一个重要问题随之而来:在 AI 三角的三大组件——数据、算法和基础设施中,哪一项应成为推动 AI 进步的优先级?我们应该投入于更好的算法、更大的数据集,还是更强的计算基础设施?答案揭示了系统工程为何成为 AI 进步的核心。

苦涩教训:系统工程为何至关重要

AI 研究在最近七十年来的最大教训是:能够充分利用大规模计算资源的系统最终会胜出。这也是为什么系统工程,而不仅仅是算法创新,成为 AI 进步的瓶颈。

从符号 AI 到统计学习再到深度学习,每一次范式转变都提出了一个根本问题:我们应该优先发展更复杂的算法、更优质的数据集,还是更强大的基础设施?

历史给出了明确答案。几十年 AI 研究的最大突破,并非来自更好的人类知识编码或算法技巧,而是来自如何更有效地利用更强大的计算资源。强化学习先驱 Richard Sutton4 在 2019 年《苦涩教训》一文中,明确指出系统工程已成为 AI 成功的决定性因素。

Sutton 指出,强调人类专家知识和领域经验的方法虽然短期有效,但始终被能够利用大规模计算资源的通用方法超越。他写道:“70 年 AI 研究的最大教训是,通用方法结合计算最终会以巨大优势胜出。”

这一原则在 AI 突破中屡获验证。国际象棋领域,IBM 深蓝 1997 年击败卡斯帕罗夫,靠的不是编码棋艺,而是每秒评估数百万棋局的暴力搜索。围棋领域,DeepMind 的 AlphaGo 通过自我对弈学习,而非研究人类围棋智慧。计算机视觉领域,卷积神经网络直接从数据中学习特征,超越了几十年手工特征工程。语音识别领域,端到端深度学习系统超越了依赖人类语音学和语言学的传统方法。

“苦涩”的原因在于我们的直觉常常误导我们。我们本能认为编码人类专家知识才是通向人工智能的路径,但事实是,只要规模足够,依赖计算和数据学习的系统总能超越专家知识系统。这一规律贯穿符号 AI、统计学习和深度学习时代——后续我们将详细梳理 AI 历史演变,验证这一一致性。

以 GPT-4 等现代语言模型或 DALL-E 等图像生成系统为例,它们的能力并非源于人类语言或艺术理论,而是通过通用神经网络在海量数据和巨量算力下训练而成。训练 GPT-3 约耗电 1287 兆瓦时,相当于 120 户美国家庭一年的用电量,或相当于一辆电动车环绕地球约 160 圈(以特斯拉 Model 3 为例);而服务模型给数百万用户,则需要持续消耗兆瓦级数据中心电力。工程挑战在于如何管理这一规模:收集和处理 PB 级训练数据,协调数千块 GPU(每块功耗 300-500 瓦)并行训练,毫秒级延迟服务模型,同时管理散热和电力约束5,并根据实际表现持续更新系统。

这些规模需求揭示了一个技术现实:现代 ML 系统的主要瓶颈不是算力,而是内存带宽6——即数据在存储与处理单元之间的传输速率。内存墙成为决定系统性能的关键。现代 ML 系统受限于内存,矩阵乘法运算仅能发挥理论峰值的 1-10%,因为处理器大部分时间都在等待数据而非计算。将 1GB 数据从 DRAM 移动,能耗约为一次 32 位乘法的 1000 倍,数据移动成为性能和能耗的主导因素。Amdahl 定律7量化了这一限制:如果数据移动占 80% 执行时间,即使算力无限,最大加速也只有 5 倍。这一内存墙推动了所有现代架构创新,从内存计算、近数据处理到计算存储一体化专用加速器。这些系统级挑战正是本书将系统化探讨的核心工程问题。

Sutton 的苦涩教训帮助我们理解了本书的动机。**如果 AI 进步依赖于我们高效扩展计算的能力,那么构建、部署和维护这些计算系统的能力就成为 AI 从业者最重要的技能。**机器学习系统工程之所以重要,是因为现代系统的构建需要协调数千个 GPU、处理 PB 级的数据,并以毫秒级的延迟为数百万用户提供服务。这一挑战需要在分布式系统8、数据工程、硬件优化和运维等方面具备全新的工程能力。

这些系统级挑战的汇聚,说明现有学科无法满足现代 AI 需求。计算机科学推动 ML 算法发展,电气工程开发 AI 专用硬件,但两者都无法单独提供部署、优化和维护大规模 ML 系统所需的工程原理。这一空白催生了新的工程学科。要理解这一学科为何在当下出现、将如何发展,必须先回顾 AI 自身的历史演变,从早期符号系统到现代机器学习。

AI 范式的历史演变

我们通过苦涩教训确立的系统视角,并非一蹴而就,而是经过数十年 AI 研究,每一次范式转变都揭示了算法、数据与计算基础设施之间的新关系。梳理这一演变,有助于理解技术进步和方法论转变,为今天系统工程成为核心提供理论依据。

理解为何系统化 ML 转型发生在当下,需认识到过去十年三大因素的汇聚:

  1. 海量数据集:互联网时代带来了前所未有的数据量——网页、社交媒体、传感器网络和数字交易。ImageNet(百万标注图片)、Common Crawl(数十亿网页)等公开数据集为学习复杂模式提供了原材料。
  2. 算法突破:深度学习在计算机视觉、自然语言处理等领域表现卓越。Transformer、注意力机制和迁移学习等技术,使模型能从数据中学习通用表达。
  3. 硬件加速:最初为游戏设计的 GPU,为机器学习计算带来 10-100 倍加速。云计算基础设施让算力无需巨额资本投入即可获得。

三者相互促进:更大数据集需要更强算力,更好算法推动数据集扩展,更快硬件让算法落地。这一汇聚让 AI 从学术探索变为生产技术,亟需系统化工程实践。

AI 发展历程如图 2 所示,突出关键里程碑:1957 年 Frank Rosenblatt 提出感知机9,是最早的计算学习算法之一。1965 年计算机实验室拥有房间大小的主机10,可运行证明数学定理或玩井字棋等简单程序。早期 AI 系统虽具突破性,但与今天能识别癌症或理解人类语言的机器学习系统有本质区别。时间轴展示了从 1966 年 MIT 的 ELIZA11聊天机器人,到 1997 年 IBM 深蓝击败卡斯帕罗夫,再到 2020 年 OpenAI GPT-3 和 2023 年 GPT-4 的问世,AI 系统复杂度和能力的飞跃。

图 2: AI 发展时间轴:早期 AI 研究聚焦于符号推理和规则系统,现代 AI 则依赖神经网络等数据驱动方法实现日益复杂的任务。这一演变体现了从手工编码智能到学习智能的转变,里程碑包括感知机、深蓝和 GPT-3 等大模型。
图 2: AI 发展时间轴:早期 AI 研究聚焦于符号推理和规则系统,现代 AI 则依赖神经网络等数据驱动方法实现日益复杂的任务。这一演变体现了从手工编码智能到学习智能的转变,里程碑包括感知机、深蓝和 GPT-3 等大模型。

梳理这一时间轴,可见 AI 发展经历了多个阶段,每一阶段都在前人基础上吸取经验、解决限制,推动方法论和系统能力的跃迁。

符号智能时代

机器学习的故事始于 1956 年著名的达特茅斯会议12,John McCarthy、Marvin Minsky、Claude Shannon 等先驱首次提出“人工智能”这一术语。他们认为智能可以归结为符号操作。Daniel Bobrow 的 STUDENT 系统(1964 年)是这一时代的代表,通过自然语言理解解决代数文字题。

STUDENT(1964)

问题:“如果 Tom 获得的顾客数是他投放广告数的 20% 平方的两倍,而广告数为 45,Tom 获得的顾客数是多少?”

STUDENT 的流程:

  1. 解析文本
  2. 转换为代数方程
  3. 求解方程:n = 2(0.2 × 45)²
  4. 得出答案:162 位顾客

早期 AI 如 STUDENT 有一个致命弱点:只能处理完全匹配预设规则和模式的输入。这种“脆弱性”13导致系统在处理设计范围内的特定问题时看似智能,但遇到稍有变化或现实复杂性时就彻底崩溃。这一局限推动了向统计方法的演变,下一节将详细探讨。

专家系统时代

认识到符号 AI 的局限后,70 年代中期研究者意识到通用 AI 过于理想化,转而聚焦于在特定领域捕捉人类专家知识。斯坦福开发的 MYCIN 是首批大规模专家系统之一,用于诊断血液感染。

MYCIN(1976)

MYCIN 规则示例: IF 感染为原发性菌血症 培养部位为无菌部位之一 疑似入口为胃肠道 THEN 有 0.7 概率提示感染为类杆菌

MYCIN 在医学 AI 领域取得了重大进展,拥有 600 条专家规则用于血液感染诊断,但也暴露了现代 ML 依然存在的关键挑战。获取专家知识并转化为精确规则非常耗时且困难,医生往往无法明确解释自己的决策过程。MYCIN 在面对不确定或不完整信息时表现不佳,而人类医生能做出合理猜测。随着规则库扩展,维护和更新变得复杂,新规则常与旧规则冲突,而医学知识本身也在不断演变。知识获取、不确定性处理和系统维护至今仍是机器学习领域的核心问题,只是技术路径不同。

统计学习时代

知识获取和系统维护的挑战促使研究者转向新方法。90 年代,AI 领域从手工编码规则转向统计学习。

三大因素促成了统计方法的崛起:首先,数字化革命带来了海量可用于训练算法的数据;其次,摩尔定律14带来了处理这些数据所需的算力;第三,研究者开发了如支持向量机和改进神经网络等新算法,可以从数据中学习模式而非依赖预设规则。

这种组合彻底改变了 AI 开发:机器不再直接编码人类知识,而是能自动从样本中发现模式,系统更稳健、更具适应性。

垃圾邮件过滤的发展就是典型例证。早期基于规则的系统依赖显式模式,表现出与符号 AI 系统相同的脆弱性,极易被绕过。统计系统则不同:如果“viagra”一词在 90% 的垃圾邮件中出现,而在普通邮件中仅 1%,我们就能用这一模式识别垃圾邮件。无需编写显式规则,统计系统能自动从数千封邮件样本中学习这些模式,适应新的垃圾邮件手法。其数学基础是贝叶斯定理,用于计算某词出现时邮件为垃圾的概率:$P(\text{spam}|\text{word}) = P(\text{word}|\text{spam}) \times P(\text{spam}) / P(\text{word})$。对于多词邮件,假设词在类别(垃圾/非垃圾)条件下独立,将概率在整封邮件上组合,简化计算。

早期垃圾邮件检测系统

规则系统(1980 年代): IF contains(“viagra”) OR contains(“winner”) THEN spam

统计系统(1990 年代): P(spam|word) = (该词在垃圾邮件中的频率) / (总频率)

结合朴素贝叶斯: P(spam|email) ∝ P(spam) × ∏ P(word|spam)

统计方法带来了三大核心理念,至今仍是 AI 发展的基础。第一,训练数据的质量和数量与算法本身同等重要,AI 只能学习样本中存在的模式。第二,必须有严格的评估方法衡量 AI 性能,催生了各种度量指标用于比较不同方法。第三,精度(预测正确率)与召回率(覆盖所有应检出的情况)之间存在权衡,设计者需根据应用需求做出取舍。这些挑战需要系统化方法: 第 6 章:数据工程 详述数据质量与漂移检测, 第 12 章:AI 基准测试 探讨评估指标及精度 - 召回权衡。垃圾邮件过滤可容忍部分垃圾邮件以避免误杀重要邮件,而医学诊断系统则宁可多报假警以确保不漏诊。

下表总结了 AI 方法的演进历程,突出各范式的关键优势和能力。由左至右可见重要趋势。在深入浅层和深度学习前,理解现有方法的权衡有助于把握后续发展脉络。

关键优势逻辑推理领域专家知识多领域适应性模式识别能力
最佳应用场景明确规则问题特定领域问题各类结构化数据问题复杂非结构化数据问题
数据处理方式几乎无需数据基于领域知识需适量数据大规模数据处理
适应性固定规则领域特定适应性可适应多领域高度适应多样任务
问题复杂度简单逻辑型复杂领域型复杂结构化极复杂非结构化

这一分析连接了早期方法与浅层、深度学习的最新进展,解释了不同方法在各时代为何流行,以及每种范式如何在继承前人经验的同时解决其局限。早期方法至今仍影响现代 AI 技术,尤其是在基础模型开发中。

统计学习带来的核心理念(数据质量、评估指标、精度 - 召回权衡)成为后续机器学习发展的基础。

浅层学习时代

在统计基础之上,2000 年代迎来了“浅层学习”时代。所谓“浅层”,指的是模型结构的层数:浅层学习通常只有一到两层处理单元,而深度学习则有多层层级结构。

这一时期,几种算法主导了机器学习领域,各自适用于不同问题:决策树15通过类似流程图的方式做出可解释决策;K 近邻算法通过查找历史相似样本进行预测,类似向经验丰富的邻居请教;线性与逻辑回归提供了简单、可解释的模型,适用于许多实际问题;支持向量机16(SVM)则通过“核技巧”17在高维空间找到复杂类别边界。核技巧能将复杂模式映射到高维空间,实现线性可分。这些算法构成了实用机器学习的基础。

2005 年典型计算机视觉方案如下:

传统计算机视觉流程

  1. 手工特征提取
    • SIFT(尺度不变特征变换)
    • HOG(方向梯度直方图)
    • Gabor 滤波器
  2. 特征选择/工程
  3. “浅层”学习模型(如 SVM)
  4. 后处理

这一时代的混合方法结合了人工特征工程与统计学习。其数学基础扎实(可证明有效性),即使数据有限也能表现良好,计算高效,结果可靠且可复现。

Viola-Jones 算法18(2001 年)是典型代表,实现了实时人脸检测,采用简单矩形特征和级联分类器19,推动了数码相机人脸识别近十年。

深度学习时代

支持向量机通过数学变换找到复杂类别边界,而深度学习则借鉴大脑结构,采用多层简单计算单元(类神经元),每层将输入数据转化为更抽象的表达。 第 3 章:深度学习基础 将系统阐述神经网络数学原理, 第 4 章:DNN 架构 则深入探讨分层学习架构。

在图像处理领域,这种分层方法极为有效。第一层检测简单边缘和对比度,后续层组合成基本形状和纹理,更高层识别具体特征如胡须、耳朵,最终形成“猫”等概念。

与浅层学习需精心设计特征不同,深度学习网络能自动从原始数据中发现有用特征。分层学习从简单模式到复杂概念,定义了“深度”学习,在图像、语音、文本等复杂现实数据上表现卓越。

AlexNet(见图 3)在 2012 年 ImageNet20竞赛中实现突破,算法创新与硬件能力完美结合。网络需两块 NVIDIA GTX 580 GPU(每块 3GB 内存,峰值 2.3 TFLOPS),但真正突破在于内存带宽利用。每块 GTX 580 带宽 192.4 GB/s,AlexNet 卷积操作理论需 288 GB/s 带宽,首次围绕内存带宽而非算力设计神经网络。6000 万参数需 240MB 存储,训练 120 万图片需复杂内存管理,跨 GPU 分割网络并协调梯度更新。训练耗时 1287 GPU 小时(6 天),top-5 错误率 15.3%,比第二名 26.2% 低 42%,证明了硬件 - 软件协同设计的威力。比 CPU 实现快 10-100 倍,将训练周期从数月缩短到数天,证明了专用硬件能解锁原本不可行的算法。

AlexNet 的成功不仅是技术突破,更是深度学习实用化的分水岭。这一成就既依赖算法创新,也依赖系统工程进步。框架基础设施如 Theano 能协调 GPU 并行、自动微分和复杂计算流程,否则算法洞见将因算力瓶颈而无法落地。

算法与系统双突破的模式定义了每一次 AI 重大进展。现代框架是将算法可能性变为现实的基础设施。自动微分(autograd)系统是现代深度学习最重要的创新之一,自动计算梯度,使复杂架构成为可能。理解这一框架中心视角(AI 能力源于算法与系统工程交汇)对构建稳健、可扩展的机器学习系统至关重要。AlexNet 的突破引发了深度学习研究和应用的爆发,至今仍在持续。支撑这一突破的基础设施需求,正是本书所探讨的算法与系统工程融合。

图 3: 卷积神经网络架构:AlexNet 证明深度神经网络能自动学习有效特征,远超传统视觉方法。只要数据和算力充足,神经网络能在图像识别任务上取得惊人准确率。
图 3: 卷积神经网络架构:AlexNet 证明深度神经网络能自动学习有效特征,远超传统视觉方法。只要数据和算力充足,神经网络能在图像识别任务上取得惊人准确率。

GPT-3 于 2020 年发布,拥有 1750 亿参数,参数存储约需 350GB(完整训练基础设施 800GB+),规模比 BERT-Large21(3.4 亿参数)提升 1000 倍。训练 GPT-3 需约 314 ZettaFLOPS22算力,1024 块 V100 GPU23并行数周,训练成本约 460 万美元。模型文本处理带宽约 1.7GB/s,需专用基础设施以亚秒级延迟服务数百万用户。这些模型展现了只有在大规模下才出现的“涌现能力”:写出类人文本、复杂对话、图像生成、代码编写。能力源于算力和数据规模,而非显式编程。

一个关键洞见是:更大规模的神经网络和数据能解决更复杂的任务。这种规模带来了巨大的系统挑战24:高效训练大模型需数千 GPU 并行,模型存储和服务需数百 GB,训练数据量巨大。

2012 年深度学习革命建立在 1950 年代神经网络研究基础之上。故事始于 Frank Rosenblatt 的感知机(1957 年),展示了简单人工神经元能学习分类模式。虽仅能解决线性可分问题(Minsky 和 Papert1969 年《Perceptrons》所示),但引入了可训练神经网络的核心思想。80 年代带来重要突破:Rumelhart、Hinton 和 Williams 于 1986 年提出反向传播算法,系统化训练多层网络,Yann LeCun 将其应用于手写数字识别,设计了专用神经网络用于图像处理(LeCun 等 1989 年)25

这些网络在 90-00 年代几乎停滞,不是理论错误,而是技术尚未成熟。领域缺乏三大要素:足够的数据训练复杂网络、足够算力处理数据,以及训练深层网络的技术创新。

深度学习的潜力依赖于 AI 三角三要素的汇聚:足够数据、足够算力、算法突破。漫长的技术积累解释了 2012 年 ImageNet 突破是厚积薄发而非突然革命。这一演进确立了机器学习系统工程作为连接理论进步与实际落地的学科,在 AI 三角框架下运作。

这一演变揭示了关键洞见:AI 从符号推理到统计学习再到深度学习,应用目标愈发宏大和复杂。但这种增长带来了超越算法本身的挑战,必须工程化构建能大规模部署和持续运行的 AI 系统。理解现代 ML 系统的实际运行,需深入分析其生命周期特征和部署模式,这些特性与传统软件系统有本质区别。

理解机器学习系统生命周期与部署

梳理了 AI 从符号系统到统计学习再到深度学习的演变后,我们可以探讨现代 ML 系统的实际运行机制。理解 ML 生命周期和部署格局至关重要,因为它们决定了每一个工程决策。

ML 开发生命周期

ML 系统在开发和运维生命周期上与传统软件有本质区别。传统软件遵循可预测流程,开发者编写显式指令,系统确定性执行26。几十年成熟实践:版本控制精确记录代码历史,CI/CD 流水线27自动测试,静态分析工具衡量质量。成熟基础设施保障可靠开发,工程原则明确。

机器学习系统则完全不同。传统系统执行显式编程逻辑,ML 系统则通过训练从数据模式中获得行为。行为驱动从代码转向数据,带来传统软件工程无法解决的复杂性。数据驱动行为的转变需要专门的工作流, 第 5 章:AI 工作流 将详细阐述。

图 4 展示了 ML 系统如何以持续循环而非传统软件的线性流程运行。

图 4: ML 系统生命周期:成功的机器学习系统以持续迭代为特征,需要反馈循环不断优化模型,解决数据收集、模型训练、评估和部署中的性能退化。与传统软件开发线性流程不同,ML 强调动态监控和适应,保障系统在变化环境下的可靠性和准确性。
图 4: ML 系统生命周期:成功的机器学习系统以持续迭代为特征,需要反馈循环不断优化模型,解决数据收集、模型训练、评估和部署中的性能退化。与传统软件开发线性流程不同,ML 强调动态监控和适应,保障系统在变化环境下的可靠性和准确性。

在生产环境中,生命周期阶段会形成良性或恶性循环。高质量数据促进有效学习,稳健基础设施支持高效处理,优良系统设计反过来提升数据收集。反之,数据质量差会破坏学习,基础设施不足阻碍处理,系统局限又妨碍数据改进,问题互相放大。

部署环境谱系

管理机器学习系统的复杂性因部署环境而异,每种环境都有独特约束和机会,影响生命周期决策。

一端是云端 ML 系统,运行于大型数据中心28,如大语言模型和推荐引擎,处理 PB 级数据,服务数百万用户。算力几乎无限,但运维复杂且成本高昂。大规模系统架构详见 第 2 章:ML 系统 第 11 章:AI 加速

另一端是 TinyML 系统,运行于微控制器29和嵌入式设备,ML 任务受限于极低内存、算力和能耗。智能家居如 Alexa、Google Assistant 需用比 LED 灯还低的功耗识别语音,传感器需在电池供电下运行数月甚至数年。嵌入式 ML 部署技术详见 第 9 章:高效 AI 第 10 章:模型优化 ,嵌入式系统挑战详见 第 14 章:设备端学习

两端之间还有丰富的 ML 系统类型。边缘 ML 系统将计算靠近数据源,降低延迟30和带宽需求,同时管理本地算力。移动 ML 系统需在 4-12GB RAM、1.5-3GHz ARM 处理器、2-5 瓦功耗下实现复杂能力。比如手机运行先进图像分类模型,推理耗电 100-500mW,耗时 10-100ms,而云服务器可用 200 瓦,延迟低于 1ms。企业 ML 系统则在特定业务约束下运行,聚焦特定任务并集成现有基础设施。有些组织采用混合架构,将 ML 能力分布在多层以平衡各种需求。

部署如何影响生命周期

上述部署谱系不仅仅是硬件配置的不同。每种环境都带来需求、约束和权衡,影响 ML 生命周期的每一阶段,从数据收集到持续运行和演化。

性能需求常常驱动架构决策。对延迟敏感的应用如自动驾驶或实时反欺诈,可能必须采用边缘或嵌入式架构,尽管资源受限。需要大规模训练算力的应用如大语言模型,则自然倾向于集中云架构。但性能只是复杂决策空间中的一个因素。

资源管理在不同架构下差异巨大,直接影响生命周期各阶段。云系统需优化规模化成本,平衡 GPU 集群、存储和网络带宽,影响训练策略(多久重训)、数据保留策略(保留哪些历史数据)、服务架构(如何分配推理负载)。边缘系统受限于固定资源,限制模型复杂度和更新频率。移动和嵌入式系统约束最严,每一字节内存和每一毫瓦功耗都至关重要,需激进模型压缩31和训练调度。

系统分布越广,运维复杂度越高,生命周期各阶段影响连锁放大。集中云架构有成熟部署工具和托管服务,边缘和混合系统则需应对分布式管理难题。数据收集需协调分布式传感器,连接状况各异;版本控制需跟踪数千边缘设备上的模型;评估需考虑硬件能力差异;部署需支持分阶段上线和回滚;监控需汇总地理分布系统的信号。生产 ML 系统的运维卓越、故障响应和调试方法详见 第 13 章:机器学习运维

数据因素带来竞争压力,重塑生命周期流程。隐私或数据主权法规可能推动采用边缘或嵌入式架构,数据本地化,改变数据收集和训练策略——可能需采用联邦学习32,模型在分布式数据上训练而无需集中。大规模训练数据需求则倾向于云端集中。数据速度和体量也影响架构选择:实时传感器数据需边缘处理以节省带宽,批量分析则适合云端周期性模型更新。

系统演化和维护需求需从设计初期考虑。云架构易于系统演化,模型更新和 A/B 测试33方便,但运维成本高。边缘和嵌入式系统更新难度大(需空中升级34,带宽管理复杂),但运维成本低。ML 系统的持续循环——数据收集、模型训练、性能评估、更新部署、行为监控——在分布式架构下尤为挑战,模型更新和系统健康维护需跨多层精心协调。

这些权衡很少是简单二选一。现代 ML 系统常采用混合架构,按具体场景和约束平衡各因素。例如自动驾驶车辆实时感知和控制在边缘完成,数据上传云端用于模型优化,定期下载新模型。语音助手本地检测唤醒词以保护隐私和降低延迟,完整语音则上传云端做复杂自然语言处理。

关键洞见是:部署决策会影响整个系统生命周期。选择嵌入式设备部署不仅限制模型规模,还影响数据收集(可用传感器)、训练方法(是否用联邦学习)、评估指标(准确率、延迟、功耗)、部署机制(OTA 升级)、监控能力(可收集哪些遥测数据)。这些决策体现了 AI 三角框架的实际应用,一处约束会在系统各环节产生连锁效应。

理解 ML 系统在生命周期和部署谱系上的运行机制后,我们可以通过具体案例展示这些原则的实际应用。后续案例将说明不同部署选择如何在系统生命周期各阶段带来独特工程挑战和解决方案。

真实世界机器学习系统案例分析

确立了 AI 三角框架、生命周期阶段和部署谱系后,我们可以分析这些原则在真实系统中的实际运作。与其泛泛而谈多个系统,不如聚焦一个典型案例——自动驾驶——它涵盖了 ML 系统工程在三大组件、多个生命周期阶段和复杂部署约束下的全部挑战。

案例分析:自动驾驶

Waymo 是 Alphabet 旗下自动驾驶技术领军者,也是迄今最具雄心的机器学习系统应用之一。Waymo 源自 2009 年 Google 自动驾驶项目,代表了 ML 系统从嵌入式到云基础设施的全谱系应用。该案例展示了复杂 ML 系统在安全关键、现实环境中的落地,融合了实时决策与长期学习和适应。

数据挑战

Waymo 技术背后的数据生态极为庞大且动态。每辆车都是移动数据中心,传感器(激光雷达35、雷达36、高清摄像头)每小时生成约 1TB 数据。现实数据还辅以更大规模的仿真数据,Waymo 车辆已在仿真环境中行驶超 200 亿英里,真实道路超 2000 万英里。挑战不仅在于数据量,更在于异构性和实时处理需求。Waymo 需同时处理结构化(如 GPS 坐标)和非结构化数据(如摄像头图像)。数据管道从车载边缘处理延伸到云端大规模存储和处理系统。安全关键应用要求复杂的数据清洗和验证流程。将车辆环境转化为适合机器学习的特征,需复杂预处理,将原始传感器数据转化为能反映交通动态的有效特征。

算法挑战

Waymo 的 ML 技术栈是为自动驾驶多维挑战量身定制的算法集成。感知系统用专用神经网络处理视觉数据,实现目标检测和跟踪。预测模型需预测其他道路参与者行为,采用能理解时序模式的神经网络37。构建如此复杂的多模型系统需借鉴 第 4 章:DNN 架构 的架构模式和 第 7 章:AI 框架 的框架基础设施。Waymo 开发了如 VectorNet 等定制模型用于轨迹预测。规划与决策系统可能采用经验学习技术应对复杂交通场景。

基础设施挑战

Waymo 自动驾驶的计算基础设施体现了 ML 系统从边缘到云的全谱系部署难题。每辆车配备定制计算平台,能实时处理传感器数据并做决策,常用专用硬件如 GPU 或 TPU38。边缘计算与云基础设施结合,利用 Google 数据中心训练模型、运行大规模仿真和全车队学习。系统需专用硬件架构(详见 第 11 章:AI 加速 )和边缘 - 云协同策略(详见 第 2 章:机器学习系统 ),以实现大规模实时处理。各层之间的连接至关重要,车辆需高带宽可靠通信以实时更新和数据上传。Waymo 基础设施需具备稳健性和容错能力,确保硬件故障或网络中断时依然安全运行。Waymo 运营规模带来数据管理、模型部署和分布式车队系统监控的巨大挑战。

未来影响

Waymo 影响远超技术进步,有望彻底变革交通、城市规划和日常生活。Waymo One 在亚利桑那州凤凰城推出商用自动驾驶网约车,是 AI 系统在安全关键应用中实际部署的重要里程碑。Waymo 的进展推动了传感器技术、边缘计算和 AI 安全等领域创新,影响远超汽车行业。但也带来了责任、伦理和 AI 与人类社会互动等重要问题。Waymo 持续扩展业务,探索卡车和末端配送等新场景,成为先进 ML 系统的试验田,推动持续学习、稳健感知和人机交互等领域进步。Waymo 案例既展示了 ML 系统变革行业的巨大潜力,也揭示了现实部署 AI 的复杂挑战。

部署场景对比

Waymo 展示了混合边缘 - 云 ML 系统的全部复杂性,其他部署场景则有不同约束。微软研究院的 FarmBeats 农业物联网项目,运行于资源极度受限的边缘环境,远程地区连接有限。FarmBeats 展示了 ML 系统工程如何适应约束:模型更简单,可在低功耗微控制器上运行,创新连接方案(如电视空白频段),本地处理减少数据传输。挑战包括恶劣环境下传感器可靠性、有限人工监督下的数据质量验证,以及设备离线时模型更新。

AlphaFold 则是纯云端科学 ML,算力几乎无限但精度至上。AlphaFold 蛋白质结构预测需 128 个 TPUv3 核心训练数周,处理数亿蛋白序列。系统挑战与 Waymo 或 FarmBeats 截然不同:管理超大训练数据集(蛋白质数据库含 18 万结构)、协调专用硬件分布式训练、用实验数据验证预测。与 Waymo 的延迟约束或 FarmBeats 的功耗约束不同,AlphaFold 优先考虑算力吞吐以探索巨大搜索空间——训练成本超 10 万美元,但实现了科学突破。

这三类系统——Waymo(混合,延迟关键)、FarmBeats(边缘,资源受限)、AlphaFold(云端,算力密集)——说明部署环境决定了每一个工程决策。三大组件框架适用于所有系统,但具体约束和优化重点差异巨大。理解部署多样性对 ML 系统工程师至关重要,同一算法洞见在不同场景下可能需要完全不同的系统实现。

有了具体案例,我们可以分析不同部署和生命周期阶段下出现的挑战。

ML 系统的核心工程挑战

Waymo 案例和对比部署场景揭示了 AI 三角框架如何在数据、算法和基础设施间产生相互依赖的挑战。我们已阐述 ML 系统与传统软件在故障模式和性能退化上的区别,下面具体分析由此带来的挑战类别。

数据挑战

ML 系统的基础是数据,管理数据带来一系列核心挑战,可能悄然导致系统性能退化。数据质量是首要问题:现实数据常常杂乱、不完整、不一致。Waymo 传感器需应对环境干扰(雨水遮挡摄像头、激光雷达反射)、传感器老化和多传感器不同采样率下的数据同步。与传统软件能通过输入校验发现异常不同,ML 系统必须处理现实观测中的模糊和不确定性。

规模也是关键维度。Waymo 每车每小时生成约 1TB 数据——管理如此数据量需复杂的数据收集、存储、处理和高效训练访问基础设施。挑战不仅在于存储 PB 级数据,还需维护数据质量元数据、数据集版本控制和高效检索。系统规模扩展到数千辆车、多个城市后,数据管理难度呈指数级增长。

最严重的问题是数据漂移39,即数据模式随时间逐渐变化,导致模型性能悄然下降。Waymo 模型会遇到训练数据未覆盖的新交通模式、道路结构、天气和驾驶行为。比如主要在凤凰城训练的模型,部署到纽约后可能因分布变化表现不佳:交通更密集、驾驶风格更激进、道路布局不同。与传统软件规范恒定不同,ML 系统必须适应所建模世界的演变。

分布变化常常很隐蔽。季节变化影响传感器性能(太阳角度、降水模式),施工改变道路布局,城市扩张带来交通模式演变。每一次变化都可能悄然影响模型某一部分——如冬季行人检测准确率下降,或新铺路面导致车道跟踪信心降低。检测这些变化需持续监控输入分布和模型在不同环境下的表现。

系统化管理数据挑战的方法,包括质量保障、版本控制、漂移检测和修复策略,详见 第 6 章:数据工程 。关键洞见是:ML 系统中的数据挑战是持续且动态的,需要持续工程关注,而非一次性解决。

模型挑战

构建和维护 ML 模型本身也带来一系列挑战。现代 ML 模型,尤其深度学习,极为复杂。以 GPT-3 为例,数百亿参数需通过训练优化40。这种复杂性带来实际难题:模型训练和运行需巨大算力,难以在资源有限场景(如手机、物联网设备)部署。

高效训练模型本身就是巨大挑战。与传统编程写明指令不同,ML 模型通过样本学习。学习过程涉及架构和超参数选择:模型结构如何设计?训练多久?如何判断模型学到的是泛化模式而非死记训练数据?这些决策既需技术专长,也需大量试错。

现代实践越来越依赖迁移学习——用已有模型作为新任务的起点。例如图像识别不必从零训练,可用在百万图片上预训练的模型微调到医学或农业领域。这大幅减少训练数据和算力需求,但也带来新挑战,如如何避免预训练模型的偏见迁移到新应用。迁移学习、分布式训练和偏见缓解等训练挑战需系统化方法,详见 第 8 章:AI 训练 ,基础设施详见 第 7 章:AI 框架

尤其重要的是,确保模型在现实条件下表现良好。泛化差距,即训练表现与实际表现的差异,是机器学习的核心挑战。模型在训练数据上可达 99% 准确率,但上线后因分布差异仅有 75%。自动驾驶、医学诊断等关键应用,理解并缩小泛化差距是安全部署的前提。

系统挑战

让 ML 系统在现实世界可靠运行带来独特挑战。与遵循固定规则的传统软件不同,ML 系统需应对输入输出的不确定性和变化。通常既需训练系统(学习数据)又需服务系统(推理预测),两者需求和约束不同。

以语音识别为例,企业需有音频数据收集和存储基础设施,模型训练系统,以及实时处理用户语音的服务系统。每个环节都需高效可靠,且要无缝协作。构建稳健数据管道的工程原则详见 第 6 章:数据工程 ,生产环境运维实践详见 第 13 章:机器学习运维

这些系统还需持续监控和更新。如何判断系统是否正常?如何无中断地更新模型?如何处理错误或异常输入?当 ML 系统服务数百万用户时,运维挑战尤为复杂。

伦理挑战

ML 系统日益普及,其社会影响也愈发重要。公平性是主要关注点,ML 系统有时会无意中学会歧视某些群体,这往往源于训练数据中的偏见。例如招聘筛选系统若历史上某群体更易被录用,模型可能学会偏向该群体。检测和缓解偏见需对训练数据和模型行为做细致审计。

透明性和可解释性也很重要。现代 ML 模型,尤其深度学习,参数动辄数百万甚至数十亿,常被视为“黑箱”——只能观察输入输出,难以理解内部推理过程。就像收音机能播放声音但大多数人不懂其电子原理,这些模型通过复杂数学变换做出预测,难以解释。医疗、司法、金融等领域,ML 系统做出影响人生的决策,利益相关者理应获得决策解释。

隐私也是重大问题。ML 系统常需大量数据,但这些数据可能包含敏感信息。如何在保障数据需求和个人隐私间平衡?如何防止模型通过推理攻击41泄露隐私?这些挑战不仅是技术问题,更是系统设计和部署的持续考量。公平与偏见检测详见 第 17 章:可信 AI ,隐私保护与推理攻击防御详见 第 15 章:安全与隐私 ,稳健性保障详见 第 16 章:稳健 AI

挑战的相互作用

Waymo 案例说明,挑战在 AI 三角各环节间连锁放大。数据质量问题(传感器噪声、分布漂移)会降低模型性能。模型复杂度约束(延迟、功耗)迫使架构妥协,可能影响公平性(简单模型更易偏见)。系统级故障(OTA 升级失败)可能阻止部署能解决伦理问题的新模型。

这种相互依赖决定了 ML 系统工程必须整体思考,不能只优化单一环节。比如为提升准确率采用更大模型,会带来更多训练数据需求、更长训练时间、更高服务成本、更高延迟,若训练数据未精心筛选,还可能加剧偏见。成功应对这些权衡需理解一处决策如何影响全局。

挑战格局也解释了为何许多研究模型无法落地生产。学术 ML 常专注于提升基准数据集准确率,忽略推理延迟、训练成本、数据隐私或运维监控等实际约束。生产 ML 系统需在准确率、部署可行性、运维成本、伦理和长期可维护性间平衡。这一研究与生产的落差,正是本书强调系统工程而非纯算法创新的原因。

这些跨越数据质量、模型复杂度、基础设施可扩展性和伦理的挑战,决定了 ML 系统与传统软件工程的本质区别。算法创新到系统集成的转变,以及独特的运维特性,共同催生了新的工程学科——我们称之为 AI 工程。

AI 工程学科定义

梳理了历史演变、生命周期特征、实际应用和核心挑战后,我们可以正式定义解决系统级问题的学科。

AI 工程

AI 工程 是专注于在嵌入式设备到数据中心等各类计算平台上,构建可靠、高效、可扩展机器学习系统的工程学科。涵盖数据获取、模型开发、系统集成、部署和运维全生命周期,强调资源感知和系统级优化。

如前文所述,AI 已从符号推理、专家系统和规则方法转向以学习为主导。如今企业构建 AI,实质就是构建机器学习系统。Netflix 推荐引擎处理数十亿观影事件训练模型,服务数百万订阅用户。Waymo 自动驾驶实时运行数十个神经网络处理传感器数据。训练 GPT-4 需协调数千 GPU 跨数据中心,耗电数兆瓦。现代 AI 本质上就是机器学习:系统能力源于数据学习模式。

这一融合让“AI 工程”成为学科的自然名称,尽管本书聚焦于机器学习系统。该术语反映了当今 AI 的实际构建和部署方式。

AI 工程涵盖生产智能系统的完整生命周期。突破性算法需高效数据收集和处理、分布式计算、可靠服务(严格延迟要求)、基于实际表现的持续监控和更新。学科关注各层挑战:为专用硬件设计高效算法、优化每天处理 PB 级数据的数据管道、实现数千 GPU 分布式训练、部署服务数百万并发用户的模型、维护随数据分布变化而演化的系统。能效不再是附加约束,而是与准确率和延迟并列的首要指标。内存带宽物理极限、Dennard 缩放失效、数据移动能耗决定了从芯片设计到数据中心部署的每一个架构决策。

AI 工程作为独立学科的出现,类似于计算机工程在 60-70 年代的诞生42。随着计算系统复杂度提升,电气工程和计算机科学都无法单独解决可靠计算机的集成挑战,计算机工程应运而生。今天,AI 工程面临算法、基础设施和运维实践交汇的类似挑战。计算机科学推动 ML 算法进步,电气工程开发 AI 专用硬件,但两者都无法涵盖大规模生产 AI 系统所需的系统集成、部署策略和运维实践。

AI 工程学科定义后,后续内容将系统阐述机器学习系统的构建与运维实践。全书用“机器学习系统工程”描述这一实践——即设计、部署和维护现代 AI 所依赖的机器学习系统。两者本质一致:AI 工程是学科名称,机器学习系统工程是具体实践。

确立 AI 工程学科后,我们可以用系统化框架组织其实践,系统应对前述挑战。

ML 系统工程的五大支柱框架

前文探讨的挑战——隐性性能退化、数据漂移、模型复杂度和伦理问题——说明了 ML 系统工程为何成为独立学科。独特的故障模式要求专门方法:传统软件工程无法应对悄然退化的系统。这些挑战不能仅靠算法创新解决,需贯穿全生命周期的系统化工程实践。

本书将 ML 系统工程组织为五大互相关联的学科,直接应对已识别的挑战类别。如下图所示,这五大支柱是将研究原型转化为可规模化生产系统所需的核心工程能力。

图 5: <strong>ML 系统生命周期</strong>:机器学习系统工程涵盖五大互相关联学科,系统应对大规模 AI 系统构建、部署和运维的现实挑战。每一支柱都是将研究原型转化为生产系统的关键工程能力。
图 5: ML 系统生命周期:机器学习系统工程涵盖五大互相关联学科,系统应对大规模 AI 系统构建、部署和运维的现实挑战。每一支柱都是将研究原型转化为生产系统的关键工程能力。

五大工程学科

如图 5 所示,五大支柱框架直接源于 ML 系统区别于传统软件的系统挑战。每一支柱既解决特定挑战类别,又强调其相互依赖:

数据工程(详见 第 6 章:数据工程 )应对数据相关挑战:质量保障、规模管理、漂移检测和分布变化。涵盖构建稳健数据管道,确保质量、处理大规模、保障隐私,并为所有 ML 系统提供基础设施。以 Waymo 为例,需管理每车每小时 TB 级传感器数据,实时验证数据质量,检测不同城市和天气下的分布变化,维护数据谱系以便调试和合规。技术包括数据版本控制、质量监控、漂移检测算法和隐私保护数据处理。

训练系统(详见 第 8 章:AI 训练 )解决模型复杂度和规模相关挑战。涵盖开发能管理大数据集和复杂模型的训练系统,优化分布式环境下算力利用。现代基础模型需协调数千 GPU,实现并行化、训练故障恢复、成本与模型质量平衡。章节探讨分布式训练架构、优化算法、大规模超参数调优和使大规模训练可行的框架。

部署基础设施(详见 第 13 章:机器学习运维 第 14 章:设备端学习 )应对训练 - 服务分离和运维复杂性。涵盖构建可规模化服务模型、优雅处理故障、适应生产环境变化的可靠部署基础设施。部署涵盖云端每秒百万请求到边缘设备的极低延迟和功耗约束。技术包括模型服务架构、边缘部署优化、A/B 测试框架和分阶段上线策略,既能快速迭代又能最小化风险。

运维与监控(详见 第 13 章:机器学习运维 第 12 章:AI 基准测试 )直接应对 ML 系统独有的隐性性能退化。涵盖创建监控和维护系统,保障持续性能、早期问题发现和安全生产更新。与传统软件监控只关注基础设施不同,ML 运维需四维监控:基础设施健康、模型性能、数据质量和业务影响。章节探讨指标设计、报警策略、故障响应流程、生产 ML 系统调试技术和持续评估方法,确保退化在影响用户前被发现。

伦理与治理(详见 第 17 章:可信 AI 第 15 章:安全与隐私 第 18 章:可持续 AI )应对公平、透明、隐私和安全等伦理社会挑战。将负责任 AI 实践贯穿系统生命周期,而非事后补救。安全关键系统如自动驾驶需形式化验证、场景测试、偏见检测与缓解、隐私保护学习和可解释性方法,支持调试和认证。章节涵盖技术方法(差分隐私、公平性指标、可解释性技术)和组织实践(伦理审查、故障响应、利益相关者参与)。

组件、生命周期与学科的连接

五大支柱自然源于 AI 三角框架和生命周期阶段。每个 AI 三角组件对应特定支柱:数据工程覆盖数据全生命周期;训练系统和部署基础设施解决算法与基础设施在不同生命周期阶段的交互;运维贯穿所有组件,监控其协作;伦理与治理则贯穿所有环节,保障负责任实践。

已识别的挑战类别在各支柱中找到解决方案:数据挑战→数据工程,模型挑战→训练系统,系统挑战→部署基础设施与运维,伦理挑战→伦理与治理。正如 AI 三角框架所示,各支柱需协同而非孤立运行。

这一结构反映了 AI 从算法中心研究到系统中心工程的转变,关注点从“能否让算法工作”转向“能否构建可规模化部署、运维和维护的系统”。五大支柱是实现这一目标的工程能力。

ML 系统工程的未来趋势

五大支柱为 ML 系统工程提供了稳定框架,但领域仍在持续演进。理解当前趋势有助于预判未来系统中核心挑战和权衡的表现形式。

应用创新日益聚焦于具备自主行动能力的智能体系统,超越被动预测,能自主规划、推理和执行复杂任务。这类系统对决策框架和安全约束提出新要求。五大支柱不仅不会被替代,反而更为重要:能自主行动的系统需更严格的数据质量、更可靠的部署基础设施、更全面的监控和更强的伦理保障。

系统架构创新聚焦于可持续性和效率,模型规模扩大带来环境和经济压力。模型压缩、高效训练和专用硬件创新应运而生。未来架构需在更强模型与资源约束间平衡。效率创新主要影响训练系统和部署基础设施支柱,引入量化、剪枝、神经架构搜索等多目标优化新技术。

基础设施进步持续重塑部署可能性。专用 AI 加速器从数据中心到边缘设备全面涌现,异构计算格局使模型可动态分布于不同层级,模糊了云、边缘和嵌入式系统的界限。这些创新影响五大支柱的运作——新硬件带来新算法,需新训练方法,也需新监控策略。

AI 技术民主化让 ML 系统更易于开发者和企业获取。云服务商提供预训练模型和自动化平台,降低 AI 部署门槛。这一趋势并未削弱系统工程的重要性,反而提升了对稳健可靠系统的需求。五大支柱在 ML 系统普及到非传统科技领域时变得更加关键。

这些趋势共同主题是:ML 系统能力更强、应用更广,但工程可靠性更复杂。五大支柱框架为应对这一格局提供了基础,各支柱内具体技术仍在不断进步。

系统知识的本质

机器学习系统工程在知识论上不同于纯理论计算机科学。算法、复杂性理论、形式化验证等领域通过数学证明和严密推导建立知识,而 ML 系统工程是一门实践学科,通过大规模系统的构建、部署和运维积累经验。这一特点在 MLOps 等主题尤为明显,理论较少,更多是生产经验总结的模式。这里的知识不是证明最优解存在,而是识别哪些方法在现实约束下可靠。

这种实践导向体现了 ML 系统工程作为系统学科的本质。与土木、电气、机械等工程类似,核心挑战在于管理复杂性和权衡,而非推导封闭解。你将学会权衡延迟与准确率,识别数据质量何时会破坏再复杂的模型,预判基础设施选择如何影响系统架构。系统思维通过具体场景、生产故障调试和设计模式积累。

学习的启示是:精通在于对模式的直觉、权衡空间的理解和组件交互的识别。阅读监控策略或部署架构时,目标不是死记配置,而是培养判断力,识别何种方法适合何种场景。本书提供框架、原理和代表性案例,但真正的专业能力需在实际问题中应用、犯错、积累模式识别,最终成为经验丰富的系统工程师。

如何使用本教材

本书内容循序渐进,章节安排系统地构建在这些基础概念之上:

基础篇章:( 第 2 章:ML 系统 第 3 章:深度学习入门 第 4 章:DNN 架构 )聚焦于算法与架构基础,为理解系统层面的决策提供技术背景。这些章节首先回答“我们要构建什么?”,然后才是“我们如何可靠地构建它?”。

支柱篇章:按照五大工程支柱组织,每个支柱包含多个章节,从基础到进阶逐步展开。读者既可以线性阅读全部内容,也可根据自身需求聚焦于相关支柱,但理解各支柱间的相互依赖,有助于体会一个决策如何影响其他环节。

专题篇章:( 第 19 章:AI 向善 第 18 章:可持续 AI 第 20 章:AGI 系统 )则探讨 ML 系统工程在特定领域和新兴挑战中的应用,展示该框架在多样场景下的灵活性。

全书采用交叉引用体系,便于读者查找关联内容——当某章节涉及其他章节已详细讨论的概念时,会有明确的跳转指引。这种互联结构反映了 AI 三角框架的现实:ML 系统工程需要理解数据、算法与基础设施的协同作用,而非孤立地研究各自部分。

如需了解本书的学习目标、适用读者、前置知识要求及如何最大化学习体验,请参阅 关于本书 章节,其中还介绍了学习社区和更多资源。

本引言为后续内容奠定了概念基础。我们首先厘清了人工智能作为愿景与机器学习作为方法论的关系,明确了机器学习系统的定义:即我们所构建的人工制品——由数据、算法和基础设施组成的一体化计算系统。通过“苦涩教训”与 AI 发展史,我们理解了为何系统工程成为 AI 进步的核心,以及基于学习的方法如何主导了该领域。这一背景让我们能够正式将 AI 工程定义为独立学科,借鉴计算机工程的成长路径,确立其作为跨越各类计算平台、专注于构建可靠、高效、可扩展机器学习系统的工程领域。

接下来的旅程将系统性地探索 AI 工程的每一支柱,既提供概念理解,也给出构建生产级 ML 系统的实用技术。我们在前文中提到的挑战——性能隐性退化、数据漂移、模型复杂性、运维负担、伦理风险——将在各章节反复出现,但此时会有基于真实经验和最佳实践的具体工程解决方案。

欢迎来到 AI 工程的世界。


  1. PB 级数据:1PB 等于 1000TB,约 100 万 GB——足以存储 13.3 年高清影像或人类全部著作的 50 倍。现代 ML 系统常常处理 PB 级数据:Meta 每天为推荐系统处理超过 4PB 数据,Google 搜索索引包含数百 PB 网页内容。管理这一规模需要分布式存储系统(如 HDFS 或 S3)将数据分片至数千台服务器,采用并行处理框架(如 Apache Spark)协调集群计算,以及复杂的数据工程流水线以超过 100GB/s 速率校验、转换和服务数据。工程挑战不仅是存储容量,更在于带宽、容错和一致性,确保 PB 级数据可用于训练和推理。 ↩︎

  2. 范式转变:哲学家托马斯·库恩 1962 年提出,指科学方法的重大变革。AI 领域的关键范式转变是从符号推理(将人类知识编码为规则)到统计学习(从数据中发现模式)。这一转变带来系统层面的深远影响:规则系统依赖程序员手工编码每条新规则,数据驱动 ML 则依赖计算和数据基础设施——性能提升靠增加 GPU 和训练数据,而非增加程序员。这一变革让系统工程成为关键:成功取决于构建能够收集海量数据、训练亿级参数模型并大规模服务推理的基础设施,而不是编码专家知识。 ↩︎

  3. AlexNet:由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 开发的深度学习模型,在 2012 年 ImageNet 竞赛中以巨大优势获胜,将 top-5 错误率从 26.2% 降至 15.3%。这是“ImageNet 时刻”,证明深度学习能超越传统视觉方法,点燃了现代 AI 革命。AlexNet 展示了只要有足够数据(120 万张图片)、算力(两块 GPU 训练 6 天)和巧妙工程(dropout、数据增强),神经网络就能在复杂视觉任务上实现超越人类的表现。 ↩︎

  4. Richard Sutton:强化学习领域的奠基人之一,通过“试错”方式让 AI 系统像人类一样学习,比如你学骑自行车靠练习而不是看说明书。Sutton 在阿尔伯塔大学合著了《Reinforcement Learning: An Introduction》教材,开发了 TD 学习、策略梯度等关键算法,推动了 AlphaGo 和现代机器人。他与 Andrew Barto 共同获得 2024 年 ACM 图灵奖(计算领域最高荣誉,被誉为“计算界诺贝尔奖”),表彰他们数十年对 AI 学习与适应的基础贡献。《苦涩教训》一文将 70 年 AI 历史浓缩为一个深刻洞见:通用方法结合大规模计算,始终远胜于人类专家知识编码。 ↩︎

  5. 热与功耗约束:计算硬件因发热和功耗受限。现代 GPU 每块功耗 300-700W(相当于 3-7 台吹风机持续运行),产生大量热量需复杂冷却系统。一个拥有 1000 块 GPU 的 AI 训练集群仅计算就需 300-700 千瓦功率,冷却还需额外 30-50%,总计约 1 兆瓦,相当于 750 户家庭用电。数据中心受限于热密度:芯片太密集则无法冷却或成本过高。这些约束影响硬件设计(性能/功耗优化)、基础设施选择(液冷/风冷)和经济权衡(功耗成本可能超过硬件成本)。功耗与热管理解释了许多 ML 系统架构决策,从边缘部署到模型压缩。 ↩︎

  6. 内存带宽:数据在内存与处理器间的传输速率,单位 GB/s。现代 GPU 如 H100 带宽约 3TB/s,CPU 约 100-200GB/s。看似很大,但对 ML 负载来说仍是瓶颈:一个 70 亿参数的 Transformer 模型仅存储权重就需 140GB,在 3TB/s 下加载需 47ms。带宽约束解释了 ML 加速器为何专注于高带宽内存(HBM),而不仅仅是更快的计算单元。相比之下,算术操作很便宜:GPU 可在移动 1GB 数据的时间内完成数万亿次乘加运算,导致处理器更多时间在等待数据而非计算。 ↩︎

  7. Amdahl 定律:计算机架构师 Gene Amdahl 于 1967 年提出,用于量化程序并行化后的理论加速。加速受限于串行部分:若 P 为可并行化比例,最大加速=1/(1-P)。例如,若程序 90% 可并行,最大加速为 10 倍,无论处理器数量多少。ML 系统中,这解释了为何内存带宽和数据移动常常成为主要瓶颈,而非算力。 ↩︎

  8. 分布式系统:组件在多台联网机器上运行并通过消息传递协调。现代 ML 训练就是分布式系统的复杂典范:GPT-3 训练需协调 1024 块 V100 GPU,分布于多个数据中心,各自处理不同数据批次并同步梯度。关键挑战包括容错(训练中机器故障如何处理)、网络瓶颈(all-reduce 操作可占总训练时间 40% 以上)、一致性(确保所有节点使用相同模型权重)。与传统分布式系统主要关注请求服务不同,ML 分布式系统需协调海量数据移动并保持数值精度,算法一致性和负载均衡远比传统系统复杂。 ↩︎

  9. 感知机:1957 年提出的最早计算学习算法之一,足够简单以硬件实现,50 年代主机只能存储几千个权重,远不及现代手机。硬件限制促使早期 AI 研究聚焦于简单可解释模型。感知机仅能解决线性可分问题,这不仅是算法限制——多层网络(可解决非线性问题)虽 60 年代已提出,但直到 80 年代内存变便宜、CPU 变快才可实际实现。算法突破与硬件落地之间的 20 年空档,预示了 AI 领域的规律:突破性算法常常等待硬件进步,解释了 ML 系统工程为何强调算法与基础设施协同设计。 ↩︎

  10. 主机:60-70 年代主导计算的房间大小计算机,通常价值数百万美元,需专用冷却。IBM System/360主机1964年推出,重达2万磅,内存8KB-1MB,约为现代智能手机的百万分之一,却代表了当时AI研究的顶尖算力。 ↩︎

  11. ELIZA:MIT 的 Joseph Weizenbaum 于 1966 年开发,是最早能模拟人类对话的聊天机器人,通过模式匹配和替换实现。从系统角度看,ELIZA 运行于 256KB 主机,采用简单模式匹配——无学习、无数据存储、无训练阶段。计算简单使其能在 60 年代硬件上实时交互,但也极易失效,推动了向数据驱动 ML 的转型。现代聊天机器人如 GPT-3 需 350GB 模型参数(未压缩)、约 460 万美元训练成本、GPU 服务器推理,能应对 ELIZA 无法处理的对话,体现了系统权衡:规则系统计算便宜但脆弱,ML 系统基础设施成本高但灵活。讽刺的是,Weizenbaum 因人们对其简单程序产生情感依赖而震惊,后来成为 AI 批评者。 ↩︎

  12. 达特茅斯会议(1956):AI 正式诞生的传奇性 8 周研讨会,由 John McCarthy、Marvin Minsky、Nathaniel Rochester 和 Claude Shannon 组织,首次专门讨论“人工智能”,McCarthy 为提案创造了该词。目标是让机器“模拟学习或智能的各个方面”。从系统角度看,参与者严重低估了资源需求——他们认为 AI 可以运行在 1950 年代硬件(最大 64KB 内存,处理器仅千赫兹到低兆赫兹)。现实却需要高出 100 万倍的资源:现代语言模型用到 350GB 内存和 exaflops 级训练算力。这种对规模需求的百万倍误判,解释了早期符号 AI 为何失败:研究者只关注算法创新,忽略了基础设施约束。教训是:AI 进步既需算法创新,也需系统工程为其提供必要算力。 ↩︎

  13. AI 系统的脆弱性:基于规则的系统在遇到超出预设场景的输入时会完全失效,无论这些输入与设计场景有多接近。与人类智能不同,人类能在陌生情况下做出合理猜测。系统层面看,脆弱性让实验室外的部署变得不可行——每个新边界情况都需程序员介入,运维成本极高。语音识别系统遇到新口音会直接失败,而不是优雅退化,必须更新系统而无法持续运行。ML 的泛化能力让现实部署成为可能,挑战从显式规则编程转向数据收集和模型持续更新的基础设施建设。 ↩︎

  14. 摩尔定律:Intel 联合创始人 Gordon Moore 于 1965 年提出,芯片上的晶体管数约每两年翻倍,成本则减半。摩尔定律让 ML 获得了 2000-2020 年间约 1000 倍的晶体管密度提升,使原本不可行的算法变得现实——80 年代提出的神经网络直到 2010 年才真正可用。但摩尔定律放缓(晶体管翻倍现需 3-4 年)推动了专用加速器创新(TPU 比 GPU 快 15-30 倍)和算法高效化(量化、剪枝等技术可将算力需求降低 4-10 倍)。系统层面教训:当通用硬件进步放缓,专用硬件和高效算法变得至关重要。 ↩︎

  15. 决策树:通过一系列是/否问题做出预测,类似流程图。80 年代流行,极具可解释性——每一步决策都能追溯。系统层面,决策树对内存和算力需求极低:典型模型仅 1-10MB,而深度学习模型需 100MB-10GB,推理仅需单核 CPU 微秒级。适合资源受限场景,如嵌入式系统、移动设备或需实时决策的应用。医疗诊断、贷款审批等需可解释性场景仍广泛采用。 ↩︎

  16. 支持向量机(SVM):Vladimir Vapnik 于 90 年代开发的强大分类算法,能找到类别间最优边界。深度学习出现前,SVM 是许多分类问题的主流方法,赢得大量竞赛。系统层面,SVM 适合小数据集(数千样本,深度学习需百万),训练只需高端工作站,而深度学习需 GPU 集群。但 SVM 不适合超 10 万样本,训练复杂度 O(n²) 到 O(n³),限制了其在大规模数据上的应用。文本分类、生物信息等数据有限但精度要求高的场景仍在用。 ↩︎

  17. 核技巧:允许 SVM 等算法通过将数据映射到高维空间,找到复杂非线性模式。例如,二维空间中呈圆形分布的数据可投射到三维空间实现线性分割。系统层面,核技巧用内存换计算效率:预计算核矩阵需 O(n²) 内存,典型硬件下 SVM 仅能处理 10 万样本(100K×100K 矩阵,8 字节一项需 80GB 内存)。这也解释了深度学习为何更适合大数据——神经网络内存需求随数据线性增长,而不是二次增长。 ↩︎

  18. Viola-Jones 算法:突破性的计算机视觉算法,通过简单矩形模式(如比较眼区与脸颊亮度)分阶段决策,快速排除非人脸,仅对有希望的候选做深入计算。2001 年硬件上实现 24 帧实时检测,特征计算仅需<0.001ms,依赖积分图实现常数时间矩形求和。高效性让其嵌入消费级相机和手机,体现了算法 - 硬件协同设计的威力。级联方法将计算量降低 10-100 倍,早期阶段用 1% 算力排除 95% 输入,使 CPU 能实现现代 GPU 千倍算力下的实时视觉。 ↩︎

  19. 级联分类器:多阶段决策系统,每一阶段快速排除明显不符样本,将有希望的候选交给更复杂的后续阶段。类似机场安检多级筛查。系统层面,级联能节省 10-100 倍算力,昂贵计算只针对少数候选——早期阶段用 1% 算力排除 95% 输入。这一模式在边缘 ML 系统中普遍应用:移动端人脸检测用小型网络(<1MB)处理大部分帧,遇到疑难情况才用大型网络(>10MB),实现毫瓦级持续检测。 ↩︎

  20. ImageNet:由斯坦福李飞飞团队 2009 年创建的大型视觉数据库,含 1400 万标注图片、21841 类别(完整版)。年度 ImageNet 挑战成为计算机视觉领域的奥运会,推动了图像识别的突破,直到神经网络几乎“解决”了竞赛。系统层面,ImageNet 约 150GB(2009 年)可单机存储,现代数据集如 LAION-5B(50 亿图文对,约 240TB)需分布式存储和并行数据加载。数据集规模增长 1000 倍,推动了分布式数据工程创新——系统需跨数十存储节点分片数据,并协调并行加载以喂养数千 GPU 训练。 ↩︎

  21. BERT-Large:Google 于 2018 年开发的基于 Transformer 的大型语言模型,参数 3.4 亿,是 GPT 时代前的大模型代表。BERT 能双向理解句子上下文,GPT-3 参数量则高出 500 倍,标志着真正大规模语言模型的到来。 ↩︎

  22. ZettaFLOPs:每秒 10^21 次浮点运算的算力单位。训练 GPT-3 约需 3.14×10^23 FLOPS(约 314 ZettaFLOPS),单块 V100 GPU 理论需 355 年。如此庞大的算力需求说明现代 AI 训练必须用数千 GPU 并行分布式系统。 ↩︎

  23. V100 GPU:NVIDIA 专为 AI 训练设计的数据中心 GPU,32GB 高带宽内存(HBM2),混合精度深度学习性能达 125 TFLOPS。每块 V100 约 8000-10000 美元(2020 年),GPT-3 训练用 1024 块,硬件成本约 800-1000 万美元,凸显前沿 AI 研究的基础设施投入。 ↩︎

  24. 大规模训练挑战:训练 GPT-3 约需 3640 千万亿次浮点运算日。云平台 GPU 小时单价 2-3 美元(2020 年),仅算力成本约 460 万美元(Lambda Labs 估算),不含数据预处理、实验和失败训练。经验法则:总项目成本通常为算力成本 3-5 倍,GPT-3 全流程约 1500-2000 万美元。现代基础模型可用 100TB+ 训练数据,需专用分布式训练技术协调数千加速器跨数据中心协作。 ↩︎

  25. 卷积神经网络(CNN):专为图像处理设计的神经网络,灵感来自人类视觉系统。“卷积”指网络以小块扫描图像,类似人眼聚焦不同场景。系统层面,CNN 参数共享使模型规模比全连接网络小 10-100 倍——CNN 仅需 500 万参数,全连接网络则需 5 亿。大幅缩减让 CNN 可部署于移动设备:MobileNetV2 仅 14MB(350 万参数)即可实现 70% ImageNet 准确率,实现了设备端图像识别,而全连接网络需 GB 级存储和内存。 ↩︎

  26. 确定性执行:传统软件在相同输入下总是产生相同输出,如计算器 2+2 永远等于 4。可预测性让测试变得简单——只需验证特定输入是否产生预期输出。ML 系统则是概率性的:同一模型可能因推理随机性或数据模式变化而输出不同结果。 ↩︎

  27. 持续集成/持续部署(CI/CD):自动化系统持续测试代码变更并部署到生产环境。开发者提交代码后,CI/CD 流水线自动运行测试、检查错误,全部通过后自动上线。对传统软件非常可靠;对 ML 系统则更复杂,需同时验证数据质量、模型性能和预测分布,而不仅仅是代码正确性。 ↩︎

  28. 数据中心:容纳数千台服务器的巨型设施,耗电 100-300 兆瓦,相当于小城市。Google 全球运营 20 多个数据中心,每个造价 10-20 亿美元。温度精确控制在 27°C,配备可持续数天的备用电源,保障全球数十亿用户的 AI 服务可靠运行。 ↩︎

  29. 微控制器:每片成本不足 1 美元的微型芯片,仅有几 KB 内存,约为智能手机的百万分之一。Arduino Uno 等流行芯片仅 32KB 存储、2KB RAM,却能运行简单 AI 模型,实现传感器数据分类、语音识别或运动模式检测,功耗低于电子表。 ↩︎

  30. 延迟:请求到响应的时间延迟。ML 系统中至关重要:自动驾驶需<10ms 延迟保障安全,语音助手需<100ms 实现自然对话。相比之下,数据传输到远程云服务器通常增加 50-100ms,这也是边缘计算成为实时 AI 应用必需的原因。 ↩︎

  31. 模型压缩:在保持准确率的前提下,缩减模型规模和算力需求的技术。常见方法包括量化(用 8 位整数替代 32 位浮点,模型缩小 4 倍)、剪枝(去除影响极小的连接,可达 90% 稀疏度)、知识蒸馏(用小模型模仿大模型)。这些技术可将 500MB 模型缩至 50MB,准确率仅损失 1-2%,使手机和嵌入式设备部署成为可能。 ↩︎

  32. 联邦学习:模型在分布式设备上学习,无需集中数据。例如手机键盘本地学习你的输入习惯,只上传模型更新(而非实际消息)到云端。Google 于 2016 年首创,支持隐私保护型 ML,让敏感数据留在设备本地,同时实现数百万用户的集体学习。 ↩︎

  33. A/B 测试:对比两种系统版本,部分用户用 A 版,部分用 B 版,测量哪种效果更好。ML 系统中,可能新模型只给 5% 用户,95% 用旧模型,比较准确率或用户活跃度,逐步全量上线。渐进式上线能在问题影响所有用户前及时发现。 ↩︎

  34. 空中升级(OTA):远程无线软件更新,如手机无需物理连接即可安装新应用。嵌入式设备或汽车上的 ML 系统,OTA 能批量部署新模型,无需人工干预。但如需通过蜂窝网络向车队推送 500MB 神经网络,需精细带宽管理和回滚机制。 ↩︎

  35. 激光雷达(LiDAR):通过激光脉冲测距,生成高精度 3D 环境地图。旋转式激光雷达每秒可发射数百万激光脉冲,检测 200 米外物体,精度达厘米级。价格高(曾达 7.5 万美元,现已下降),在雨雾天气下易受干扰。 ↩︎

  36. 雷达:利用无线电波检测物体及其距离和速度。与激光雷达不同,雷达在雨、雾、黑暗中表现良好,是全天候自动驾驶必备。汽车雷达工作频率 77GHz,可检测 250 米外车辆并精确测量速度,保障高速安全。现代汽车常用多个雷达单元,单价 150-300 美元。 ↩︎

  37. 序列神经网络:专为处理时序数据设计的神经网络架构,如根据行人过去动作预测其下一步。网络能“记住”先前输入,辅助当前决策。 ↩︎

  38. 张量处理单元(TPU):Google 专为神经网络运算设计的 AI 加速芯片,得名于“张量”(深度学习中的多维数组)。2016 年首次公开,TPU 在 AI 任务上矩阵乘法速度比同期 GPU 快 15-30 倍,功耗更低。单个 TPU v4 pod 算力达 1.1 exaflops,相当于 1 万块高端 GPU,使大模型训练周期从数月缩短到数天。 ↩︎

  39. 数据漂移:输入数据统计特性随时间逐渐变化,若未监控和处理,模型性能会下降,需重训或更新模型。 ↩︎

  40. 反向传播:训练神经网络的核心算法,通过反向传播误差梯度,调整每一层参数以最小化预测误差。 ↩︎

  41. 推理攻击:攻击者通过精心查询训练好的模型,试图从模型中提取训练数据的敏感信息,利用模型在训练过程中的记忆漏洞。 ↩︎

  42. 美国首个计算机工程学位项目于 1971 年在凯斯西储大学设立,标志着计算机工程作为独立学科的正式诞生。 ↩︎

文章导航

章节内容

这是章节的内容页面。

章节概览

评论区