第 15 章：安全与隐私

目标

为什么隐私与安全决定了机器学习系统能否广泛应用并获得社会信任？

机器学习系统为了高效运行，需要前所未有地访问个人数据、机构知识和行为模式，这在实用性与保护之间形成了张力，直接影响社会接受度。与传统软件仅临时处理数据不同，ML 系统会从敏感信息中学习，并将模式固化到持久模型中，这可能无意间泄露隐私细节。这种能力带来了系统性风险，不仅威胁个人隐私，还可能损害机构信任、竞争优势甚至民主治理。机器学习在医疗、金融、教育和公共服务等关键领域的成功部署，完全依赖于建立健全的安全与隐私基础，既能促进有益应用，又能防止有害暴露。缺乏这些保护，即使最强大的系统也会因法律、伦理和实际顾虑而被弃用。理解隐私与安全原则，能帮助工程师设计兼具技术卓越与社会认可的系统。

学习目标
通过形式化定义和威胁模型，区分机器学习系统中的安全与隐私问题
分析历史安全事件，提炼适用于 ML 系统漏洞的原则
按照既定分类法，梳理模型、数据和硬件各层面的机器学习威胁
针对具体场景，评估差分隐私、联邦学习、合成数据生成等隐私保护技术
设计集成数据保护、模型安全与硬件信任机制的分层防御架构
实现 ML 系统的基础安全控制，包括访问管理、加密与输入校验
通过定量成本效益分析，权衡安全措施与系统性能
应用三阶段安全路线图，结合组织威胁模型与风险容忍度优先部署防御措施

机器学习系统中的安全与隐私

从集中式训练架构向分布式、自适应机器学习系统的转变，彻底改变了现代 ML 基础设施的威胁格局与安全需求。正如第 14 章：设备端学习所述，现代 ML 系统越来越多地运行在异构计算环境中，涵盖边缘设备、联邦网络和混合云。这种架构演进带来了自适应智能的新能力，但也引入了传统网络安全框架难以覆盖的新攻击面和隐私漏洞。

机器学习系统的安全特性与传统软件应用有本质区别。传统软件仅临时、确定性地处理数据，而 ML 系统则将训练数据中的模式提取并固化到模型参数中。这种知识表达方式带来了独特的风险：敏感信息可能被模型无意记忆，并通过输出或系统化探测被泄露。无论是医疗系统泄露患者信息，还是专有模型被逆向推理，这些风险都威胁个人隐私与机构知识产权。

如第 2 章：机器学习系统所述，ML 系统的架构复杂性通过多层攻击面加剧了安全挑战。现代 ML 部署包括数据采集管道、分布式训练基础设施、模型服务系统和持续监控框架，每一层都带来独特漏洞，而隐私问题贯穿整个计算栈。分布式部署、边缘节点自适应和联邦协调协议进一步扩大了攻击面，也使全面安全实施更加复杂。

应对这些挑战，需要在 ML 系统全生命周期内系统性地整合安全与隐私考量。本章将奠定工程化 ML 系统实现计算有效性与可信运行的基础，介绍安全原则在 ML 场景下的应用，识别学习系统特有的威胁模型，并提出涵盖数据保护、模型安全与硬件安全的综合防御策略。

我们将通过四个互相关联的框架展开：首先区分 ML 语境下的安全与隐私，其次通过历史安全事件为现代威胁评估提供证据，再分析学习过程本身带来的新型漏洞，最后提出跨越加密数据保护、对抗鲁棒模型设计与硬件安全机制的分层防御架构。全章强调可落地的实现指导，帮助实践者开发既满足技术性能又符合社会信任标准的系统。

基础概念与定义

安全与隐私是 ML 系统设计的核心，但常被混淆。两者都旨在保护系统与数据，但方式、威胁模型和技术响应各异。区分二者，有助于指导健壮与负责任的基础设施设计。

安全的定义

机器学习中的安全，聚焦于防御对抗性行为，包括保护模型参数、训练管道、部署基础设施和数据访问路径，防止被操控或滥用。

安全定义
安全在机器学习系统中指 保护数据、模型与基础设施 免受 未授权访问、操控或破坏。涵盖 防御机制的设计与实现，防止 数据投毒、模型窃取、对抗性操控 及 系统级漏洞。安全机制确保 ML 服务在 开发、部署与运维环境 下的 完整性、机密性与可用性。

示例：部署在公共交通基础设施的人脸识别系统，可能被对抗性输入攻击，导致误识别或系统失效。这属于运行时安全漏洞，威胁准确性与可用性。

隐私的定义

安全应对对抗性威胁，隐私则关注限制敏感信息在 ML 系统中的暴露与滥用，包括保护训练数据、推理输入与模型输出，防止即使在无攻击下也泄露个人或专有信息。

隐私定义
隐私在机器学习系统中指 保护敏感信息 免于 未授权披露、推断或滥用。涵盖 方法设计与实现，降低 个人、专有或受监管数据 暴露风险，同时保障 ML 系统有效运行。隐私机制帮助在 开发、部署与运维环境 下维护 机密性与数据使用控制。

示例：基于医疗转录训练的语言模型，可能无意记忆患者对话片段，若用户通过公开聊天机器人触发该内容，即使无攻击者介入，也属于隐私失效。

安全与隐私的区别

两者虽有交集（如加密存储兼顾安全与隐私），但目标、威胁模型与缓解策略不同。下表总结了 ML 系统中二者的区别。

方面	安全	隐私
主要目标	防止未授权访问或破坏	限制敏感信息暴露
威胁模型	对抗性攻击者（外部或内部）	诚实但好奇的观察者或被动泄露
典型关注点	模型窃取、投毒、规避攻击	数据泄露、再识别、记忆化
攻击示例	对抗性输入导致误分类	模型反演泄露训练数据
代表性防御	访问控制、对抗训练	差分隐私、联邦学习
法规相关性	强调于网络安全标准	数据保护法核心（如 GDPR）

表 1: 安全与隐私的区别：机器学习系统需分别应对安全与隐私问题；安全防御针对系统功能的对抗性威胁，隐私保护则防止数据泄露或再识别。表格明确了目标、威胁模型与缓解策略的差异。

安全与隐私的交互与权衡

安全与隐私密切相关但不可互换。安全系统通过限制未授权访问有助于隐私保护，隐私设计（如最小化数据保留）也能缩小攻击面。但二者有时也存在张力，如差分隐私¹降低记忆风险但可能影响模型效用，加密提升安全却可能影响透明度与审计性，增加隐私合规难度。ML 系统设计需整体权衡这些取舍，尤其在医疗、金融等敏感领域，必须同时防范滥用（安全）与过度暴露（隐私）。理解二者边界，是构建高性能、可信赖、合规系统的基础。

从安全事件中学习

在建立安全与隐私的概念基础后，接下来通过标志性安全事件，观察这些原则如何在真实系统中体现。这些历史案例为抽象概念提供了具体例证，揭示了系统性风险（供应链攻击、隔离不足、端点武器化）在现代 ML 部署中的映射。

从各类计算系统的知名安全事件中可汲取宝贵经验。理解这些模式如何应用于现代 ML 部署（云、边缘、嵌入式），有助于提升安全性。这些事件表明，系统设计中的薄弱环节可能导致广泛甚至物理层面的后果。尽管本节案例未必直接涉及 ML，但其安全教训对 ML 应用同样适用。

供应链攻击：Stuxnet

2010 年，安全研究人员发现了高度复杂的计算机蠕虫 Stuxnet ²，专门针对伊朗纳坦兹核设施的工业控制系统。Stuxnet 利用微软 Windows 的四个“零日”漏洞³，可在联网与隔离系统间隐蔽传播。

Stuxnet 不同于传统窃密或间谍软件，其目标是通过破坏离心机，干扰铀浓缩过程。尽管目标设施为物理隔离（air-gapped）⁴，但蠕虫仍通过感染的 USB 设备⁵渗透，证明物理隔离并非绝对安全。

蠕虫专门攻击可编程逻辑控制器（PLCs），即自动化电机等工业设备的计算机。通过利用 Windows 系统和西门子 Step7 软件漏洞，Stuxnet 实现了高度定向的物理破坏。这一事件首次证明了数字恶意软件可跨越虚实边界，操控工业基础设施。

Stuxnet 的教训对现代 ML 系统极具参考价值。训练管道与模型仓库面临与 Stuxnet 类似的供应链风险：恶意依赖包（PyPI/conda）、投毒数据集（HuggingFace、Kaggle）、后门模型权重（模型仓库木马）、篡改硬件驱动（NVIDIA CUDA、AI 芯片固件后门）。

ML 具体攻击场景：攻击者上传带后门的图像分类模型到主流仓库，该模型在正常数据上表现良好，但对特定图案误判。自动化部署后，数千辆自动驾驶汽车受影响，直到被发现。

防御此类供应链攻击需端到端措施：（1）加密签名所有模型、数据集与依赖；（2）溯源追踪，记录所有训练数据、代码与基础设施；（3）完整性校验，自动扫描模型后门、依赖漏洞与数据投毒；（4）隔离训练，将敏感模型训练在受控环境。下图展示了供应链攻击在工业与 ML 系统中的共性。

图 1: <strong>Stuxnet</strong>：通过利用 Windows 与西门子软件漏洞攻击 PLC，展示了供应链攻击如何让数字恶意软件造成物理破坏。现代 ML 系统同样面临投毒数据、恶意依赖与模型权重篡改等风险。 — 图 1: **Stuxnet**：通过利用 Windows 与西门子软件漏洞攻击 PLC，展示了供应链攻击如何让数字恶意软件造成物理破坏。现代 ML 系统同样面临投毒数据、恶意依赖与模型权重篡改等风险。

隔离不足：Jeep Cherokee 黑客事件

2015 年 Jeep Cherokee 黑客事件揭示了日常产品互联带来的新型漏洞。安全研究员通过远程网络攻击，公开演示了 Jeep Cherokee 车辆的关键安全漏洞。研究员利用车辆 Uconnect 娱乐系统的漏洞（该系统通过蜂窝网络联网），远程控制了发动机、变速箱和刹车，无需物理接触。

这一事件让汽车行业警醒，现代车辆的互联性带来了前所未有的安全风险。传统上隔离的汽车控制系统（如转向、刹车）因对外接口暴露而变得脆弱。远程操控安全关键功能，引发了乘客安全、监管和行业最佳实践的广泛关注。

该事件导致 140 万辆汽车召回⁶，促使制造商将网络安全纳入设计。美国国家公路交通安全管理局（NHTSA）⁷发布了汽车网络安全指南，要求安全开发与应急响应。

Jeep 事件对 ML 系统安全有重要启示。互联 ML 系统必须严格隔离外部接口与安全关键组件。架构缺陷（外部接口可达安全功能）正是现代 ML 部署中推理 API 连接物理执行器的风险根源。

现代 ML 攻击面同样因隔离不足而暴露：如自动驾驶车辆中，娱乐系统 ML API（语音识别、导航）被攻破后可影响感知模型，进而操控转向与刹车；智能家居中，语音助手唤醒模型被利用后可绕过门锁与摄像头；工业 IoT 中，边缘推理端点被攻破后可操控制造系统执行器；医疗设备中，诊断模型被攻击后影响治疗建议与药物输送。

具体攻击场景：智能家居语音助手通过云端 NLP 模型处理指令。攻击者利用语音处理 API 漏洞注入恶意命令，因网络分段不足，语音系统可访问门锁人脸识别模型，实现物理入侵。

有效防御需全面隔离架构：（1）网络分段，防火墙与 VPN 隔离推理与执行网络；（2）API 认证，所有 ML API 调用需加密认证、限流与异常检测；（3）权限分离，推理模型运行于最小权限沙箱；（4）故障安全，执行逻辑异常或失联时默认安全（如门锁关闭、马达停止）；（5）监控，实时日志与异常 API 调用告警。

端点武器化：Mirai 僵尸网络

Jeep 事件展示了定向攻击，Mirai 僵尸网络则揭示了大规模武器化的风险。2016 年， Mirai 僵尸网络 ⁸成为史上最具破坏力的分布式拒绝服务（DDoS）⁹攻击之一。Mirai 感染了数十万台联网设备（摄像头、DVR 等），这些设备多以出厂默认密码部署，极易被攻陷并编入攻击网络。

Mirai 用于攻击主要互联网基础设施，导致美国等地多项在线服务中断。事件表明，若设计时忽视安全，消费级与工业设备可被大规模武器化。

Mirai 的教训对 ML 部署同样适用。边缘 ML 设备若认证薄弱，将被大规模武器化。现代 ML 边缘设备（智能摄像头、语音助手、无人机、工业传感器）面临同样模式，但因具备 AI 能力与敏感数据，后果更严重。

与传统 IoT 仅提供算力不同，ML 设备被攻陷后可：（1）数据外泄，如摄像头泄露人脸库、语音助手窃取对话、健康监测器盗取生物特征；（2）模型武器化，如无人机协同攻击、交通摄像头误报操控交通系统；（3）AI 侦查，如识别高价值目标、情感分析等。

具体场景：攻击者攻陷 5 万台默认密码的智能摄像头（运行目标检测模型），不仅可泄露人脸库，还可协同监控目标、注入虚假警报、利用算力训练对抗样本。

全面防御需零信任边缘安全：（1）安全制造，消除默认密码，硬件安全模块（HSM）实现唯一密钥，安全启动与加密校验；（2）通信加密，所有 ML API 通信强制 TLS 1.3+，证书钉扎与双向认证；（3）行为监控，异常推理、流量与算力实时检测；（4）自动响应，远程一键隔离或禁用被攻陷设备；（5）安全更新，固件升级需加密签名，自动补丁与回滚。

系统性威胁分析与风险评估

历史事件表明，供应链漏洞导致持续渗透，隔离不足引发权限提升，端点武器化带来大规模攻击。这些模式在 ML 部署中直接映射：训练管道与模型仓库继承供应链风险，外部接口需严格隔离，边缘 ML 设备可被武器化。

这些事件揭示的安全模式在 ML 系统中被进一步放大。Stuxnet 需复杂恶意代码操控工业控制器，而 ML 系统可通过看似正常的数据投毒嵌入后门。ML 系统因数据驱动与自主决策，既更易受隐蔽攻击，也更危险。理解这些历史模式，有助于识别 ML 场景下的攻击向量，并针对学习系统的统计特性设计专门防御。

ML 系统引入了超越传统计算的新攻击面：训练数据可被操控嵌入后门，输入扰动可利用决策边界，API 查询可提取模型知识。这些 ML 特有威胁需结合统计学习基础与传统基础设施加固，形成专门防御体系。

威胁优先级框架

面对众多潜在威胁，需有优先级框架合理分配防御资源。并非所有威胁概率与影响相同。基于可能性与影响的优先级矩阵，有助于聚焦关键风险。

示例分类：

高概率/高影响：联邦学习中数据投毒，易于实施且可严重破坏模型。
高概率/中等影响：公开 API 的模型提取，常见且技术门槛低，主要影响竞争优势。
低概率/高影响：云端模型的硬件侧信道攻击，需高水平攻击者但可泄露全部参数与数据。
中概率/中等影响：敏感数据模型的成员推断攻击，需一定技术但主要威胁个人隐私。

本章将据此优先顺序展开，从最常见的模型窃取、数据投毒、对抗攻击讲起，再分析硬件与基础设施漏洞。理解优先级，有助于以最小投入获得最大安全收益。

模型特有攻击向量

ML 系统面临覆盖全生命周期的威胁：训练时操控、推理时规避。主要分为三类：模型机密性威胁（模型窃取）、训练完整性威胁（数据投毒¹⁰）、推理鲁棒性威胁（对抗样本¹¹）。每类针对不同漏洞，需不同防御策略。

理解不同攻击在 ML 生命周期中的发生阶段，有助于防御优先级与攻击者动机分析。下图展示了主要攻击向量在 ML 流水线中的映射。

数据采集阶段：攻击者可在联邦学习、众包等不受控场景注入恶意样本或篡改标签。
训练阶段：面临后门插入、标签操控等攻击，攻击者可嵌入仅特定触发条件下激活的隐蔽行为。
部署阶段：模型窃取攻击多在此阶段发生，API、文件下载或移动端逆向均可泄露知识产权。
推理阶段：对抗攻击在运行时发生，攻击者构造输入欺骗模型，肉眼难以察觉。

生命周期视角揭示了不同威胁需分阶段防御：数据校验保护采集，安全训练环境保护训练，访问控制与 API 设计保护部署，输入校验保护推理。理解攻击与生命周期的对应，有助于在正确层级部署防御。

ML 模型本身有时也可被用作攻击组件。预训练模型（尤其是大型生成或判别网络）可被用于自动化对抗样本生成、钓鱼内容合成、协议规避等。开源或公开模型可被微调用于恶意目的，包括冒充、监控或逆向安全系统。

模型窃取

模型机密性威胁指攻击者获取训练模型的参数、结构或输出行为，可能导致经济损失、竞争对手复制功能、甚至泄露模型权重中的敏感信息。

此类威胁存在于公开 API、云服务、本地推理引擎、共享模型仓库等多种部署场景，常因接口暴露、序列化格式不安全¹²、访问控制不足而被提取。

高调法律案件凸显了模型的战略与经济价值。例如，前 Google 工程师 Anthony Levandowski 被指控窃取 Waymo 自动驾驶核心设计，并创办竞争公司。此类案例说明内部威胁可绕过技术防护，获取敏感知识产权。

模型窃取后果不仅限于经济损失，还可能被用于敏感信息提取、算法复制或进一步攻击。研究表明，通过系统化 API 查询可低成本近似重建大型语言模型的部分能力，尽管完整复制仍具挑战。例如，竞争对手若获得电商平台推荐模型，不仅可洞悉用户行为，还可开展模型反演攻击¹³，推断训练数据细节。

模型反演攻击中，攻击者通过合法接口（如公开 API）查询模型，分析输出置信度，优化输入以重建训练集特征。例如，安全门禁的人脸识别模型可被操控泄露员工照片统计特征。Netflix Prize 数据集¹⁴的再识别研究也证明了匿名化的局限。

模型窃取分为两类：提取模型内部属性（参数、结构）与复制外部行为。不同模型架构的脆弱点详见第 4 章：DNN 架构。两类窃取均威胁 ML 系统安全与价值，详见下节。

下图展示了两种攻击路径：精确窃取获取模型权重与结构，近似窃取则通过输入输出行为训练替代模型。前者威胁知识产权与训练投资，后者则可实现行为复制，助力对抗攻击或模型反演。

图 3: <strong>模型窃取策略</strong>：攻击者可针对模型内部参数或外部行为进行窃取。直接窃取提取权重和结构，近似窃取则通过输入输出训练替代模型，即使无法访问内部组件也可实现高保真复制。 — 图 3: **模型窃取策略**：攻击者可针对模型内部参数或外部行为进行窃取。直接窃取提取权重和结构，近似窃取则通过输入输出训练替代模型，即使无法访问内部组件也可实现高保真复制。

精确模型窃取

精确窃取指攻击者提取模型的内部结构与参数，常针对通过 API、嵌入式推理引擎或可下载文件暴露的模型。利用访问控制薄弱、序列化不安全或接口未加固，攻击者可直接复制模型资产。

攻击目标主要有三类：一是模型权重（如神经网络参数），可直接复现模型功能；二是超参数（如学习率、批量大小、正则化），可复现高质量结果；三是架构结构（层次、激活函数、连接模式），可通过侧信道¹⁵、逆向或行为分析重建。

架构泄露不仅威胁知识产权，还让竞争对手洞悉关键设计。

防御需加固模型序列化、限制运行时 API 访问、加密与混淆部署管道，结合访问控制、加密与混淆技术，降低被提取风险。

近似模型窃取

近似窃取指攻击者不直接访问参数或结构，而是通过输入输出行为复制模型决策能力。常见于 API 服务或用户端应用，攻击者通过大量查询与响应训练替代模型（模型蒸馏¹⁶或 knockoff），无需内部知识即可实现高保真复制。

攻击者评估复制效果主要有两种方式：一是性能指标（准确率、精度、召回等）对齐，二是预测一致性（同输入下输出一致，包括错误）。在 NLP 等场景，攻击者可复制情感分析模型，获得竞争洞察或绕过专有系统。

开放 API 或用户端部署难以彻底防御近似窃取。限流、自动化提取检测、输出水印等可缓解风险，但需兼顾可用性与性能。

一项针对 OpenAI 语言模型的近似窃取研究（@carlini2024stealing）表明，仅凭公开 API 可重建输出投影矩阵，通过精心设计的查询，恢复隐藏维度与权重矩阵（可达仿射变换精度）。

该攻击虽未重建完整模型，但已泄露内部架构参数，为更深层次提取奠定基础。实验证明，API 返回 top-k logit 等特性若不严格控制，将成为重大泄漏通道。

尺寸（维度提取）	尺寸（维度提取）	查询次数	权重矩阵 RMSE	成本（美元）
OpenAI ada	1024 ✓	< 2 ^6$	$5 \cdot 10^{-4}$	$1 / $4
OpenAI babbage	2048 ✓	< 4 ^6$	$7 \cdot 10^{-4}$	$2 / $12
OpenAI babbage-002	1536 ✓	< 4 ^6$	未实现	$2 / $12
OpenAI gpt-3.5-turbo-instruct	未公开	< 4 ^7$	未实现	$200 / ~$2,000（估算）
OpenAI gpt-3.5-turbo-1106	未公开	< 4 ^7$	未实现	$800 / ~$8,000（估算）

表 2: 模型窃取成本：攻击者可用较低查询成本通过公开 API 提取模型权重。下表量化了 OpenAI ada 与 babbage 模型的权重提取威胁，显示低于 (4 \cdot 10^6) 次查询即可实现低 RMSE，经济成本仅 $1-$12。

如表所示，权重提取的 RMSE 可低至 $10^{-4}$，大规模高保真复制已具备经济可行性。系统设计需警惕 API 细节泄漏带来的风险。

案例：特斯拉知识产权窃取

2018 年，特斯拉起诉自动驾驶初创公司 Zoox ，指控前员工窃取自动驾驶相关机密数据与模型。诉状称，数名员工离职前转移了 10GB+ 机密文件，包括机器学习模型与源代码。

其中关键图像识别模型被窃取，Zoox 可借此绕过多年研发，获得竞争优势。除经济损失外，模型被盗还可能引发模型反演等安全风险。

涉事员工否认不当行为，案件最终庭外和解。该事件表明，模型窃取不仅限于 API 或公开接口，内部威胁、供应链与开发基础设施同样危险。

数据投毒

数据投毒关注训练完整性，通过操控训练数据影响模型行为。攻击者注入看似正常但实际有害的数据，诱导模型产生偏差或后门。

数据投毒是安全威胁，因为攻击者有意操控训练数据，嵌入漏洞或颠覆模型。尤其在联邦学习、众包标注、在线爬取等外部数据场景，攻击者可无需直接访问训练管道即可投毒。

攻击模型多样，白盒攻击者了解架构与训练流程，可精准操控；黑盒或有限访问攻击者则利用开放数据通道或间接注入。投毒可发生在采集、预处理、标注、存储等各环节，攻击面广泛。不同部署场景下，数据投毒威胁优先级详见第 15 章：安全与隐私。

投毒攻击通常分三步：注入恶意数据、模型训练嵌入攻击行为、部署后利用异常行为。数学上，数据投毒可视为双层优化问题，攻击者选择 $D_p$ 使模型在验证集 $D_{\text{test}}$ 上损失最大化：

$$ \max_{D_p} \ \mathcal{L}(f_{D \cup D_p}, D_{\text{test}}) $$

针对性攻击则聚焦特定输入 $x_t$ 与目标标签 $y_t$：

$$ \max_{D_p} \ \mathcal{L}(f_{D \cup D_p}, x_t, y_t) $$

例如，交通标志分类模型，攻击者注入少量被错误标注的停车标志，诱导模型将停车标志误判为限速标志。即使整体性能良好，特定场景下却存在可预测漏洞。

数据投毒按目标与影响范围分类：可用性攻击通过噪声或标签翻转降低整体准确率；定向攻击仅影响特定输入或类别；后门攻击¹⁷嵌入隐蔽触发器，仅特定条件下激活；子群体攻击针对特定特征群体，尤为危险于公平敏感场景。

现实案例：研究者通过注入拼写错误与语法错误的合成有害评论，成功降低了 Google Perspective API¹⁸ 检测有害内容的能力¹⁹。

防御需覆盖数据采集、存储、标注与训练全流程。措施包括输入校验、数据集完整性验证、异常检测与鲁棒训练算法（如异常样本降权或过滤）。需结合主动治理、自动监控与鲁棒学习，保障模型完整性。

对抗攻击

推理鲁棒性威胁关注部署阶段，攻击者通过输入扰动诱导模型错误预测。与训练期数据投毒不同，对抗攻击在推理时利用模型决策边界的脆弱性。

对抗样本是典型威胁，攻击者构造微小扰动即可大幅改变模型输出，肉眼难以察觉。详见第 16 章：稳健 AI 。研究表明，99%+ 图像分类模型可被扰动欺骗，物理世界中仅 2% 面积的贴纸即可让自动驾驶车辆 80%+ 误判。

对抗攻击无需访问训练数据或模型内部，仅需实时交互，需在推理端部署输入校验、异常检测等防御。训练期鲁棒性方法（如对抗训练）可作为补充，详见第 16 章：稳健 AI 、第 8 章：AI 训练。

攻击者知识水平决定攻击类型：白盒（完全知晓架构与参数）、灰盒（部分信息）、黑盒（仅能查询）。下表总结了不同知识水平下的模型访问、数据访问、攻击方式与典型场景。

攻击者知识水平	模型访问	训练数据访问	攻击示例	典型场景
白盒	完全访问架构与参数	完全访问	利用梯度生成对抗样本	内部威胁、开源模型复用
灰盒	部分访问（如仅架构）	有限或无访问	基于替代模型近似攻击	已知模型族，未知微调
黑盒	无内部访问，仅查询响应	无访问	查询训练替代模型与迁移攻击	公开 API、模型即服务部署

表 3: 对抗知识谱系：攻击者对模型与数据的访问水平决定了对抗攻击的可行性与复杂度，影响部署安全策略。表格按访问级别、攻击方法与场景分类，便于实际防御。

典型案例：研究者在停车标志上贴微小黑白贴纸（见下图），对人类无影响，但 ML 模型误判为限速标志，准确率降至 15%。现实中可能导致自动驾驶车辆危险操作。

图 4: <strong>对抗贴纸</strong>：几乎不可见的贴纸可让 ML 模型将停车标志误判为限速标志，准确率降至 15%。凸显 ML 系统对对抗攻击的脆弱性。来源：@eykholt2018robust。 — 图 4: **对抗贴纸**：几乎不可见的贴纸可让 ML 模型将停车标志误判为限速标志，准确率降至 15%。凸显 ML 系统对对抗攻击的脆弱性。来源：@eykholt2018robust。

该案例直观展示了对抗样本如何利用 ML 模型的模式识别机制。即使极小变化也可导致严重误判，开发者必须部署鲁棒防御。

下表总结了各类威胁的生命周期阶段、攻击向量与影响，便于针对性防御。

威胁类型	生命周期阶段	攻击向量	影响示例
模型窃取	部署	API 访问、内部泄漏	知识产权被盗、模型反演、行为复制
数据投毒	训练	标签翻转、后门	定向误判、整体准确率下降
对抗攻击	推理	输入扰动	实时误判、安全失效

表 4: 威胁全景：ML 系统在全生命周期面临多样威胁，从训练数据操控到部署后模型窃取。表格按阶段与攻击向量分类，便于制定有针对性的缓解策略。

合适的防御措施需结合威胁类型、攻击向量与生命周期阶段。下图为常见威胁与防御策略的简化决策流，实际部署需结合分层防御框架灵活组合。

图 5: <strong>威胁缓解流程</strong>：该图将常见 ML 威胁与防御策略对应，便于根据攻击向量与生命周期阶段选择合适措施。实践者可据此将威胁模型与实际缓解技术对齐，如安全模型访问与数据净化等。 — 图 5: **威胁缓解流程**：该图将常见 ML 威胁与防御策略对应，便于根据攻击向量与生命周期阶段选择合适措施。实践者可据此将威胁模型与实际缓解技术对齐，如安全模型访问与数据净化等。

ML 模型最终运行于硬件之上，硬件漏洞可能绕过模型本身的防护。软件攻击针对代码与数据流，硬件攻击则利用物理特性，难以检测。

ML 专用计算基础设施带来了超越传统软件的新攻击面，包括处理器、内存与互连。理解硬件层风险至关重要，因为其可绕过常规软件安全机制。相关内容详见第 15 章：安全与隐私的硬件安全机制部分。

下一节将分析攻击者如何通过硬件漏洞、物理篡改、侧信道与供应链风险，攻击 ML 工作负载的物理基础设施。

硬件层安全漏洞

随着机器学习系统从研究原型走向大规模实际部署，其安全性越来越依赖于所运行的硬件平台。无论是在数据中心、边缘设备还是嵌入式系统中，机器学习应用都依赖于由处理器、加速器、内存和通信接口组成的分层硬件栈。这些硬件组件虽然为高效计算提供了基础，但也带来了超越传统软件漏洞的独特安全风险。

与通用软件系统不同，机器学习工作流常常在性能受限环境下处理高价值模型和敏感数据，这不仅吸引了软件攻击者，也使硬件层攻击成为高价值目标。硬件漏洞可能导致模型被窃取、用户数据泄露、系统可靠性受损，甚至让攻击者操控推理结果。由于硬件运行在软件栈之下，这类攻击往往能绕过常规安全机制，且难以被发现。

理解硬件安全威胁，需要关注计算底层如何实现机器学习操作。在硬件层面，CPU 的算术逻辑单元、寄存器和缓存负责执行模型推理和训练指令。内存层级决定了模型访问参数和中间结果的速度。硬件与软件的接口（如固件和引导加载程序）为系统运行建立了初始信任根。计算的物理属性——包括功耗、时序特性和电磁辐射——会产生可被攻击者利用的可观测信号，从而提取敏感信息。

硬件威胁贯穿系统全生命周期。处理器架构设计缺陷（如 Meltdown 和 Spectre）会破坏安全保障。物理篡改可直接操控组件和数据流。侧信道攻击则利用功耗、时序、电磁等非预期信息泄漏。供应链攻击则在制造和分发环节引入恶意组件或篡改。所有这些威胁共同构成了 ML 系统必须应对的关键攻击面。对于关注实际部署的读者，核心经验在于供应链验证、物理访问控制和硬件信任锚点，而第 15 章：安全与隐私中的防御策略，无需深厚架构知识也可直接落地。

下表总结了主要硬件安全威胁类别，描述了其来源、手段及对 ML 系统设计和部署的影响。

威胁类型	描述	与 ML 硬件安全的关联
硬件缺陷	硬件设计中的内在缺陷，可能破坏系统完整性。	硬件漏洞的根源。
物理攻击	通过物理接触或操控直接攻击硬件。	最基础且直接的威胁模型。
故障注入攻击	通过诱发硬件故障导致系统出错，进而引发崩溃。	系统性操控导致失效。
侧信道攻击	利用硬件运行泄漏的信息提取敏感数据。	通过环境观测进行间接攻击。
泄漏接口	接口无意中暴露数据导致的漏洞。	通信通道导致数据暴露。
假冒硬件	使用未经授权的硬件组件，可能存在安全缺陷。	复合型脆弱性问题。
供应链风险	硬件全生命周期引入的风险，从生产到部署。	累积且多维度的安全挑战。

表 5: 硬件威胁全景：机器学习系统面临多样的硬件威胁，从设计缺陷到物理攻击及供应链风险。理解这些威胁及其与 ML 硬件的关联，是构建安全可信 AI 部署的基础。

硬件缺陷

首类硬件威胁源于设计漏洞。硬件同样无法避免设计缺陷或 bug 的普遍问题。攻击者可利用这些漏洞访问、操控或提取敏感数据，破坏用户和服务所依赖的机密性与完整性。最著名的例子是 Meltdown 和 Spectre ²⁰——这两大漏洞让恶意程序能够绕过内存隔离，读取其他应用和操作系统的数据。

这些攻击利用了投机执行²¹，即 CPU 为提升性能会在安全检查完成前乱序执行指令。虽然提升了速度，却无意中通过微架构侧信道（如缓存）暴露了敏感数据。这类攻击的技术复杂性说明，即使硬件经过严格验证，漏洞依然难以根除。

后续研究发现，这些并非孤立事件。Foreshadow、ZombieLoad、RIDL 等变种针对不同微架构单元（如安全区、CPU 内部缓冲区），说明投机执行缺陷是系统性硬件风险。这意味着，虽然最早在通用 CPU 上被发现，其影响已扩展到 ML 加速器和专用硬件。ML 系统常用异构计算平台（CPU、GPU、TPU、FPGA、定制加速器），这些组件处理着个人信息、医疗记录、专有模型等敏感数据，任一环节的漏洞都可能导致数据泄露。

例如，运行人脸识别模型的智能摄像头若硬件缓存隔离不当，攻击者可利用该漏洞提取中间计算、模型参数或用户数据。云端推理服务同样存在多租户间数据泄漏风险。

在医疗等隐私敏感领域，这类漏洞尤为严重。一次泄露可能违反 HIPAA 医疗隐私法 ²²，带来重大法律和伦理后果。GDPR²³ 等全球法规也要求组织采取技术措施保护数据，否则最高可罚全球营收 4%。

这些案例说明，硬件安全不仅仅是防止物理篡改，更需架构级防护以防止硬件本身的数据泄漏。随着新漏洞不断出现，持续的缓解措施必不可少，尤其在计算和内存密集型 ML 工作负载中，常需在性能与安全间权衡。机密计算、可信执行环境（TEE）等架构性防御值得关注，但要实现真正的硬件安全，需从设计到部署全流程关注。

物理攻击

除设计缺陷外，第二类威胁是直接物理操控。物理篡改指未经授权直接操控计算硬件，破坏 ML 系统完整性。这类攻击尤为危险，因为它绕过了传统软件安全防线，直接针对 ML 依赖的物理组件。ML 系统尤其易受此类攻击，因为其依赖硬件传感器、加速器和存储，在现实环境中处理大量数据并输出可靠结果。

加密、认证、访问控制等软件安全措施可防远程攻击，但对拥有物理访问权限的攻击者几乎无效。物理篡改可从插入恶意 U 盘到芯片制造阶段嵌入硬件木马，尤其在边缘或暴露环境下的 ML 系统更易被直接干预。

例如，环境监测或基础设施巡检用的 ML 无人机，其导航依赖于处理 GPS、摄像头和惯性测量单元数据的模型。若攻击者获得物理访问权，可更换或篡改导航模块，植入后门改变飞行行为或篡改数据采集。这不仅破坏系统可靠性，还可能被用于监控或走私。

这类威胁不限于移动系统。依赖 ML 处理人脸或指纹的生物识别门禁系统同样脆弱。攻击者可更换传感器，植入能窃取个人身份数据的组件，导致数据泄露和后续冒充攻击。

攻击者还可针对内部硬件子系统，如自动驾驶车辆的摄像头、激光雷达、雷达等传感器。恶意分子可物理错位或遮挡传感器，降低模型感知能力，带来安全隐患。

硬件木马风险同样严重。芯片制造或组装阶段植入的恶意电路，可能在特定输入或状态下激活，破坏计算、泄露输出或降低性能，极难在部署后诊断。

内存子系统也是攻击目标。攻击者若能物理访问边缘设备或嵌入式 ML 加速器，可操控内存芯片提取加密模型参数或训练数据。电压操控、电磁干扰等故障注入技术还可破坏模型权重或推理计算。

数据中心和云环境同样存在物理访问威胁。攻击者可安装硬件植入（如键盘记录器、数据拦截器），窃取管理凭据或监控数据流，实现持久后门。

综上，物理攻击威胁 ML 系统在各类环境下的安全与可靠性。防御需结合硬件级保护、篡改检测和供应链完整性校验。否则，即使软件防御再完善，也可能被物理漏洞攻破。

故障注入攻击

在物理篡改基础上，故障注入是更高级的硬件攻击。故障注入通过有意扰乱硬件运行，诱发计算错误。这类攻击可破坏 ML 模型的完整性，导致输出错误、可靠性下降或敏感信息泄露。对于 ML 系统，故障注入不仅影响推理，还可能被用于逆向工程或绕过安全协议。

攻击者通过精确时序的物理或电气干扰（如低电压、功率脉冲、时钟毛刺、电磁脉冲、温度变化甚至激光照射）干扰硬件执行，诱发位翻转、指令跳过或内存损坏，从而操控模型行为或提取敏感信息。

在 ML 系统中，故障注入可降低模型准确率、强制错误分类、触发拒绝服务，甚至泄露模型参数。例如，攻击者可对嵌入式 ML 模型注入故障，使其在自动导航或医疗诊断等安全关键场景下误判。更高级的攻击可针对内存或控制逻辑窃取模型权重或架构细节。

实验已证实此类攻击的可行性。@breier2018deeplaser 研究中，研究者用激光故障注入攻击微控制器上的深度神经网络，通过加热特定晶体管（见下图），强制硬件跳过 ReLU 激活函数。

图 6: <strong>激光故障注入</strong>：聚焦激光脉冲诱发微控制器内存位翻转，使攻击者可操控模型执行，破坏系统完整性。该技术用于模拟硬件错误，揭示嵌入式 ML 系统的脆弱性，推动容错设计。 — 图 6: **激光故障注入**：聚焦激光脉冲诱发微控制器内存位翻转，使攻击者可操控模型执行，破坏系统完整性。该技术用于模拟硬件错误，揭示嵌入式 ML 系统的脆弱性，推动容错设计。

下图展示了汇编代码片段实现 ReLU 激活的过程。正常情况下，代码比较累加器最高位（MSB）是否为零，若为负则跳过赋值。故障注入抑制了分支，导致处理器总是执行“else”分支，无论输入为何，神经元输出都被强制为零。

图 7: <strong>故障注入攻击</strong>：操控汇编代码绕过安全检查，无论输入为何都将神经元输出强制为零，展示了 ML 系统的硬件脆弱性。 — 图 7: **故障注入攻击**：操控汇编代码绕过安全检查，无论输入为何都将神经元输出强制为零，展示了 ML 系统的硬件脆弱性。

故障注入还可与侧信道分析结合，攻击者先观测功耗或时序推断模型结构，再精准定位层或操作（如激活函数、决策层）进行最大化破坏。

嵌入式与边缘 ML 系统尤为脆弱，因其缺乏物理加固，资源受限难以部署运行时防御。无防篡改封装或安全硬件区，攻击者可直接访问总线和内存，精准操控故障。许多嵌入式模型为轻量化设计，冗余和纠错能力有限，难以抵御故障注入。

防御需多层次措施：物理保护（防篡改外壳、设计混淆）、异常检测（监控传感器输入或模型输出）、纠错内存与安全固件、模型水印等。受限于成本和功耗，嵌入式场景难以部署加密硬件或冗余。实现故障注入鲁棒性需跨越电气、固件、软件和系统架构多层协同，否则 ML 系统在野外部署时仍将暴露于低成本高效攻击。

侧信道攻击

与直接故障注入不同，侧信道攻击是一类利用计算系统物理实现无意泄漏的信息进行攻击的安全威胁。不同于针对软件或网络漏洞的直接攻击，侧信道攻击利用硬件特性（如功耗、电磁辐射、时序行为）提取敏感信息。

侧信道攻击的核心在于设备运行时会通过可观测物理信号泄漏信息。这些泄漏可能来自设备消耗的电力、发射的电磁场、计算所需时间，甚至声学噪声。攻击者通过精确测量和分析这些信号，可推断系统内部状态或恢复机密数据。

虽然这类技术常见于密码学领域，但对 ML 系统同样适用。部署在加速器、嵌入式或边缘设备上的 ML 模型常处理敏感数据。即使算法或加密本身安全，物理执行过程也可能泄漏可被利用的侧信道信号。

最广为研究的例子是高级加密标准（AES）²⁴实现。尽管 AES 数学上安全，实际计算过程却会泄漏可测信号。

以密码认证过程的功耗分析为例。假设设备需验证 5 字节密码（如 0x61, 0x52, 0x77, 0x6A, 0x73），认证时每字节依次通过串口输入，功耗模式反映了系统处理输入的过程。

下图展示了输入正确密码时设备的行为。红色波形为串口数据流，标记每个字节的接收，蓝色曲线为设备功耗。输入完整正确密码时，功耗曲线在五字节内保持稳定，为后续对比提供基线。

图 8: <strong>功耗基线</strong>：输入正确密码时，设备认证过程功耗稳定，为后续对比提供基线。来源：colin o’flynn。 — 图 8: **功耗基线**：输入正确密码时，设备认证过程功耗稳定，为后续对比提供基线。来源：colin o’flynn。

输入错误密码时，功耗分析如图所示。前三字节正确（0x61, 0x52, 0x77），功耗与正确密码一致。第四字节（0x42）错误，设备停止认证，蓝色功耗线突变，表明进入错误状态。

图 9: <strong>侧信道攻击脆弱性</strong>：功耗模式揭示认证过程中的密钥信息，正确字节功耗一致，错误时突变。攻击者可通过分析功耗推断密码。来源：Colin O’Flynn。 — 图 9: **侧信道攻击脆弱性**：功耗模式揭示认证过程中的密钥信息，正确字节功耗一致，错误时突变。攻击者可通过分析功耗推断密码。来源：Colin O’Flynn。

下图为完全错误密码（0x30, 0x30, 0x30, 0x30, 0x30）的情况。设备在首字节后即检测到不符，提前终止，蓝色功耗线在首字节后急剧上升。

图 10: <strong>功耗突变</strong>：蓝线在首字节后急剧上升，表明认证立即失败，显示错误密码被快速检测。来源：Colin O’Flynn。 — 图 10: **功耗突变**：蓝线在首字节后急剧上升，表明认证立即失败，显示错误密码被快速检测。来源：Colin O’Flynn。

这些例子说明，攻击者可利用功耗差异缩小搜索空间，最终通过暴力分析恢复机密数据。系统性测量功耗并与不同输入关联，敏感信息本应隐藏却被提取。

这类漏洞不限于加密应用。ML 应用同样面临风险。例如，本地语音识别系统处理指令时，时序或功耗信号可能泄漏正在处理的命令。即使是微弱的声学或电磁辐射，也可能暴露操作模式，被攻击者推断用户行为。

历史上，侧信道攻击曾攻破最安全的加密系统。1960 年代，英国 MI5 曾通过监听埃及大使馆密码机的机械声，极大降低了破译难度。说明侧信道漏洞根植于计算的物理本质。

如今，键盘窃听、加密硬件功耗分析、ML 加速器电压攻击等技术不断演进。时序、电磁、热辐射等侧信道持续为攻击者提供间接观测通道。

部署在专用加速器或嵌入式平台的 ML 系统风险尤高。攻击者可利用侧信道推断模型结构、窃取参数或重建训练数据。随着 ML 在云、边缘、嵌入式环境普及，侧信道漏洞对系统安全构成重大挑战。

理解侧信道攻击的持久性和演化，对构建鲁棒 ML 系统至关重要。只要有信号，就有被利用的可能，系统设计者需通过硬件屏蔽、算法防御和运维保障多管齐下应对。

泄漏接口

侧信道攻击利用无意物理信号，泄漏接口则是通信通道暴露带来的另一类漏洞。接口是系统通信、诊断和升级的关键，但若无意中暴露敏感信息或接受未验证输入，就会成为攻击入口。许多泄漏接口在设计时被忽视，却为攻击者提供了强大入口，可提取数据、操控功能或注入恶意代码。

泄漏接口指任何暴露超出预期信息的访问点，常因认证薄弱、缺乏加密或隔离不足。消费、医疗、工业系统中均有大量案例。

如许多 WiFi 婴儿监控器被发现暴露未加密远程访问端口²⁵，攻击者可窃听家庭音视频。又如心脏起搏器²⁶的无线漏洞，若被利用可操控心脏功能，危及生命安全。

智能灯泡案例显示，生产设备上保留的调试端口²⁷泄漏了未加密 WiFi 凭据，攻击者无需绕过常规安全机制即可入侵家庭网络。

这些模式对 ML 部署同样适用。即使案例未直接针对 ML，架构模式高度相关。假设智能家居安全系统用 ML 检测用户行为并自动响应，若维护或调试接口缺乏认证或未加密，网络内攻击者即可未授权访问，暴露用户行为、破坏模型完整性或禁用安全功能。

ML 系统的泄漏接口还可能暴露训练数据、模型参数或中间输出，攻击者可据此构造对抗样本、窃取模型或逆向系统行为。更严重的是，接口还可能被用于篡改固件，植入恶意代码，导致设备失效或被编入僵尸网络。

防御需技术与组织协同。技术上需强认证、加密通信、运行时异常检测，组织上需接口清单、访问控制和持续审计。零信任架构（默认不信任任何接口）可进一步降低暴露面。

对于 ML 系统设计者，接口安全应与算法和数据同等重要。无论云、边缘还是嵌入式，接口不安全将危及系统整体可信。

假冒硬件

除合法硬件漏洞外，供应链本身也带来重大威胁。ML 系统依赖硬件的可靠性与安全性，但在全球化硬件生态下，假冒或克隆硬件已成为系统完整性的严重威胁。假冒组件指未经授权仿制的正品部件，外观和功能高度相似。复杂采购和制造流程使假冒硬件易于混入 ML 系统。

一次采购失误即可将假冒硬件引入关键系统。例如，安全门禁的人脸识别系统若无意中使用假冒处理器，可能无法正确处理生物特征，或被植入后门绕过认证。

假冒硬件风险多重。可靠性上，假冒件常因制造劣质而易损坏、性能不可预测或高负载下失效。安全上，假冒件可能含隐藏后门或恶意电路，为攻击者提供隐蔽通道。数据中心若安装克隆路由器，可能静默拦截模型预测或用户数据，形成系统性漏洞。

法律和合规风险进一步加剧问题。组织若无意集成假冒件，可能因违反安全、隐私或网络安全法规²⁸而受罚。医疗、金融等行业尤为严格，需全栈合规。医疗机构需证明全栈 HIPAA 合规，处理欧盟数据则需满足 GDPR 的供应链完整性要求。

经济压力常促使采购低价供应商，增加假冒件混入概率。假冒件设计高度仿真，检测需专业设备或取证分析，预防远比事后补救更可行。

在自动驾驶、工业自动化、医疗诊断等高可靠低延迟场景，硬件失效不仅导致停机，还可能带来安全风险。随着 ML 向高价值场景扩展，假冒硬件风险日益突出。组织必须将硬件可信性视为核心设计要求，与算法准确性和数据安全同等重要，确保 ML 系统在现实世界中可靠安全运行。

供应链风险

假冒硬件只是更广泛系统性挑战的一部分。ML 系统由跨越设计、制造、组装、分销、集成的复杂供应链构建，每一环节都可能被篡改、替换或假冒，部署方往往难以察觉。

恶意分子可多种方式利用这些漏洞。代工厂可能无意采购翻新电子垃圾冒充新品，分销商可能故意混入克隆件，制造厂内部人员可能植入难以检测的硬件木马。高级假冒件尤为隐蔽，翻新或重新包装部件可通过外观检查，却隐藏劣质或恶意内部结构。

识别此类篡改需微观分析、X 光筛查、功能测试，但成本高昂，大规模采购难以实现。结果是许多组织在未完全验证组件真实性和安全性的情况下部署系统。

风险不限于单一设备。ML 系统常集成 CPU、GPU、内存、专用加速器等异构硬件，全球采购，任一环节被攻破都可危及全局。云数据中心、联邦边缘网络等多租户环境下，硬件隔离尤为关键。

2018 年 Bloomberg 报道称中国国家行为体在 Supermicro 主板植入间谍芯片，引发行业关注。尽管报道存争议，事件凸显了硬件供应链难以彻查的现实。企业常依赖复杂、黑箱的制造和分销网络，易受隐蔽篡改影响。对单一制造商或地区的依赖（如半导体行业对 TSMC）进一步集中风险。美国 CHIPS 与科学法案等政策推动本土化生产，加强供应链韧性。

ML 系统安全需从默认信任转向零信任供应链实践，包括供应商筛查、组件溯源、篡改防护和持续行为监控。容错架构可检测并隔离故障，提供额外防线。

归根结底，供应链风险必须作为 ML 系统设计的一级关注点。模型和数据管道的可信赖性，取决于底层硬件的可信。若硬件基础不安全，再先进的模型也难免被攻破。

案例分析：Supermicro 风波

供应链风险的抽象性在一场高调争议中变得具体。2018 年，Bloomberg Businessweek 报道称中国国家行为体秘密在 Supermicro 服务器主板植入微型监控芯片，受影响服务器部署于 30 多家大公司，包括 Apple 和 Amazon。芯片据称仅米粒大小，可为攻击者提供后门访问。

报道引发科技行业广泛关注，质疑全球供应链安全及国家级硬件操控可能性。但被点名公司公开否认，称内部调查未发现植入证据。专家和政府机构也持怀疑态度，指出报道缺乏可验证技术证据。

尽管如此，事件对行业和政策影响深远。无论报道细节是否属实，供应链难以彻查和保障的现实被广泛关注。地缘政治、制造外包和现代硬件生态的复杂性，使得保障硬件完整性愈发困难。

Supermicro 案例说明：一旦产品进入全球供应链，确保每个组件未被篡改几乎不可能。对 ML 系统尤为如此，其依赖全球多供应商的加速器、内存和处理单元。

为应对风险，业界和政府已加大供应链安全投入。美国 CHIPS 与科学法案即为一例，推动半导体本土制造以提升透明度、降低外部依赖。但这些举措并不能彻底消除风险，仍需技术防护（如组件验证、运行时监控、容错设计）配合。

Supermicro 风波为 ML 社区敲响警钟。即便与知名供应商合作，硬件安全也不能掉以轻心。确保 ML 系统完整性需全流程严格把控，从设计、制造到部署和运维。该案例强化了将供应链安全作为可信 ML 系统设计基础的必要性。

当 ML 系统成为攻击工具

前述威胁——模型窃取、数据投毒、对抗攻击、硬件漏洞——均以 ML 系统为攻击目标。但完整威胁模型还需考虑反向情形：机器学习作为攻击放大器。ML 的强大能力不仅服务于正向应用，也能增强对抗操作，使 ML 从被动目标转为主动武器。

ML 系统常被视为需保护的资产，但也可作为发起攻击的工具。在对抗环境下，提升生产力、自动感知、辅助决策的模型可被用于执行或放大攻击。这种双用途特性，要求在系统级威胁建模中重新审视 ML 的角色。

攻击性 ML 应用指模型被用于推进攻击者目标，此时模型本身不是被攻击对象，而是攻击推进的机制。包括侦查、推断、规避、冒充或自动化漏洞利用等。

这类攻击并非假设，现实中攻击者已将 ML 集成进工具链，从垃圾邮件规避到模型驱动恶意软件生成。其共同点在于利用学习系统自动提取、操控或生成信息，破坏目标组件的机密性、完整性或可用性。

下表总结了典型攻击性 ML 用例，列出常用模型类型、利用的系统脆弱点及 ML 带来的优势。

攻击用例	ML 模型类型	目标系统脆弱点	ML 优势
钓鱼与社工攻击	大型语言模型（LLM）	人类感知与通信系统	个性化、上下文感知的信息生成
侦查与指纹识别	监督分类器、聚类模型	系统配置、网络行为	可扩展、自动化的系统行为画像
漏洞利用生成	代码生成模型、微调 Transformer	软件漏洞、不安全代码模式	自动发现候选漏洞
数据提取（推断攻击）	分类模型、反演模型	通过模型输出泄露隐私	有限或黑盒访问下的推断能力
检测系统规避	对抗输入生成器	部署 ML 系统的检测边界	构造最小扰动输入以绕过过滤
硬件层攻击	深度学习模型	物理侧信道（如功耗、时序、电磁）	直接从原始信号学习泄漏模式

表 6: 攻击性 ML 用例：本表分类展示了 ML 如何通过自动内容生成、利用系统漏洞和提升攻击复杂度放大网络攻击；详细列出每种攻击的典型模型、目标脆弱点和 ML 优势。理解这些用例有助于防御日益智能化的威胁。

尽管实现方式各异，这些攻击的共同基础是：攻击者用可学习模型替代静态漏洞利用，能近似或适应目标脆弱行为。这提升了灵活性，减少人工操作，提高对抗变化或部分隐藏防御的鲁棒性。

这类威胁的显著特点是可扩展性。正如计算机视觉或语言建模的准确率随数据、模型和算力提升而提升，攻击性 ML 模型的效果也随之增强。训练在更大钓鱼语料或功耗轨迹上的模型，能更好泛化、规避检测或减少攻击输入。开源模型和 ML 平台的普及进一步降低了高影响攻击的门槛。

这造成了攻防不对称。防御受限于部署、延迟和合规，攻击者却可低成本扩展训练。预训练模型和公共平台进一步降低了开发高效攻击的门槛。

理解攻击性 ML 能力对防御至关重要。安全行业早已认识到“知己知彼”原则，渗透测试²⁹、红队演练³⁰和威胁建模均基于此。

在 ML 领域，这一原则尤为重要，因为 ML 同时放大攻防能力。模式识别、自动化、可扩展性等 ML 优势同样提升了攻击能力。理解 ML 如何被武器化，有助于预判攻击向量、设计更强防御和检测机制。

因此，全面的 ML 系统安全不仅要关注自身脆弱性，还要考虑 ML 如何被用于攻击其他组件（软件、数据、硬件）。理解 ML 系统的攻击潜力，是设计鲁棒、可信、前瞻性防御的基础。

案例分析：深度学习辅助侧信道攻击（SCA）

为具体说明攻击性 ML 能力，以下以深度学习辅助侧信道攻击（SCAAML 框架）为例。该框架由 Google 研究者开发，实现了上述攻击流程。

图 11: <strong>功耗轨迹</strong>：加密计算在特定操作期间会暴露细微、数据相关的功耗变化，反映内部状态。 — 图 11: **功耗轨迹**：加密计算在特定操作期间会暴露细微、数据相关的功耗变化，反映内部状态。

如上图所示，加密计算的功耗随数据变化而变化，虽微弱但可测，反映算法在特定时刻的内部状态。

传统侧信道攻击依赖专家统计分析，而神经网络可学习信号形状与具体数据值的关联，自动解码信号。模型以功耗轨迹及对应中间值（如 S-box 输出）为标签训练，逐步学会将轨迹模式与密钥相关行为关联，将密钥恢复转化为分类问题，仅凭轨迹形状推断密钥字节。

@scaaml_2019 研究中，研究者用卷积神经网络从 STM32F415 微控制器上 TinyAES 实现的功耗轨迹中提取 AES 密钥。模型训练目标为直接从原始功耗轨迹预测 AES 算法中间值（如首轮 S-box 输出），仅需少量轨迹即可恢复完整 128 位密钥。

实验用 ChipWhisperer 采集 STM32F 目标板功耗（见下图），该板在执行 AES 时允许高精度功耗监测，说明即便廉价低功耗嵌入式设备也会通过侧信道泄漏信息，现代 ML 模型可加以利用。

图 12: <strong>STM32F415 目标板</strong>：可监控微控制器执行 AES 时的功耗，凸显 ML 模型可利用的侧信道漏洞。 — 图 12: **STM32F415 目标板**：可监控微控制器执行 AES 时的功耗，凸显 ML 模型可利用的侧信道漏洞。

后续研究引入长程模型，利用更广泛的时序依赖，在噪声和不同步条件下提升性能。深度学习模型作为攻击性密码分析工具的潜力日益凸显，尤其在安全硬件分析领域。

其影响远超学术兴趣。随着深度学习模型规模扩展，其在侧信道场景下的应用将进一步降低硬件攻击的成本、技能门槛和轨迹需求，对嵌入式 ML、加密模块和可信执行环境的安全部署构成日益严峻挑战。

全面防御架构

在分析了针对 ML 系统的威胁以及 ML 技术本身带来的新型攻击后，本节将系统性介绍如何构建全面的防御策略。要设计安全且具备隐私保护能力的机器学习系统，不能只关注单点威胁，而需要在多个系统层面集成分层防御机制，实现整体韧性。

本节将依次介绍四大防御层级：数据层（如差分隐私、安全计算，保护训练过程中的敏感信息）、模型层（如对抗训练、安全部署，保护模型本身）、运行时层（如输入校验、输出监控，保障推理安全）、硬件层（如可信执行环境，提供所有防护的信任根）。最后，结合实际部署场景，给出防御选择与落地的实用框架。

分层防御原则

分层防御（defense-in-depth）是安全架构的核心原则，即通过多重独立防御机制协同应对多样化威胁。在机器学习系统中，由于数据依赖、模型暴露和推理模式带来的独特攻击面，这一原则尤为重要。与传统软件主要面临代码漏洞不同，ML 系统更易受到输入操控、数据泄露、模型提取和运行时滥用等威胁，这些威胁又因数据、模型行为与基础设施的紧密耦合而被放大。

分层防御强调，没有任何单一机制能应对所有威胁。安全性来源于多层互补防护的协同：数据层（差分隐私、联邦学习）、模型层（鲁棒性与安全部署）、运行时层（输入校验、输出监控）、硬件层（可信执行环境、安全启动）。每一层既增强整体韧性，也能弥补其他层的潜在短板。

本节将以结构化框架，逐层讲解 ML 系统的分层防御，从数据保护到基础设施加固。该框架既承接了第 6 章：数据工程的数据保护实践，也与第 13 章：机器学习运维的运维安全措施相衔接。通过多层集成，组织可构建既可靠又能抵御对抗压力的生产级 ML 系统。

下图（图 13）直观展示了分层防御堆栈：从硬件安全到运行时防护、模型控制，再到数据隐私，每一层都建立在下层信任之上，形成端到端的安全部署策略。

图 13: <strong>分层防御堆栈</strong>：机器学习系统需要多层次安全策略，从硬件基础到数据隐私，层层构建信任。该架构在数据、模型、运行时和基础设施各层集成防护，确保生产环境下的鲁棒部署。 — 图 13: **分层防御堆栈**：机器学习系统需要多层次安全策略，从硬件基础到数据隐私，层层构建信任。该架构在数据、模型、运行时和基础设施各层集成防护，确保生产环境下的鲁棒部署。

数据隐私保护技术

在防御堆栈的最高层，首先要关注数据隐私。保护数据主体隐私是可信 AI 的基础。与传统系统常对数据做脱敏或匿名化不同，ML 工作流通常依赖原始高保真数据以获得有效模型。这种实用性与隐私的张力，催生了多种旨在最小化数据暴露、同时保障学习性能的技术。

差分隐私

差分隐私（DP）是目前最广泛采用的隐私保障框架之一。DP 以严格的数学定义量化隐私损失，确保单个个体数据的加入或移除对模型输出影响极小且可证明。

传统隐私方法多依赖去标识化（如移除姓名、地址等）或统计披露控制，但这些手段难以抵御利用辅助信息、统计相关性或模型输出进行再识别的高级攻击。差分隐私则聚焦于算法行为，而非数据内容，核心思想是：无论攻击者拥有多少外部信息，都只能获得有限的个体信息。

直观理解：假设你想统计一组人的平均工资，但没人愿意透露真实工资。差分隐私的做法是让每个人在上报前加上已知分布的随机噪声，最终平均后噪声会相互抵消，得到接近真实的均值，但单个数据点因噪声而无法被还原。这就是“只学群体，不泄个体”的本质。

数学上，差分隐私通过比较相邻数据集（仅一条记录不同）上的算法输出分布，要求无论是否包含某个个体，输出概率分布都近似一致。常用定义如下：

$$ \Pr[\mathcal{A}(D) \in S] \leq e^{\epsilon} \Pr[\mathcal{A}(D’) \in S] $$

其中 $\epsilon$ 为隐私预算，越小隐私越强但噪声越大。实际应用中，$\epsilon = 0.1$（强隐私）、$\epsilon = 1.0$（中等）、$\epsilon = 10$（弱隐私但高效用）。$e^{\epsilon}$ 限定了输出分布的最大变化，确保单个个体的影响被严格约束。

DP 通常通过在模型更新或查询响应中加入校准噪声（如拉普拉斯、高斯机制）实现。训练时常用差分隐私随机梯度下降（DP-SGD）³¹，在每步梯度计算中注入噪声，防止模型记忆个体数据。

差分隐私带来理论保障，但也引入了隐私与效用的权衡³²，即噪声越大隐私越强但模型准确率下降。

实际部署需权衡计算开销、隐私预算管理与实现难点，详见下表（表 7）。DP 常用于敏感数据训练或返回聚合统计时，兼顾隐私与性能。

联邦学习

差分隐私通过算法保障隐私，联邦学习（FL）则通过重构学习流程降低隐私风险。FL 直接应对第 14 章：设备端学习中的隐私挑战，即模型需适应本地数据但不暴露用户信息。FL 将训练分布到各客户端，数据不出本地，仅上传参数增量：

$$ \theta_{t+1} \leftarrow \sum_{k=1}^{K} \frac{n_k}{n} \cdot \theta_{t}^{(k)} $$

其中 $\theta_{t}^{(k)}$ 为第 $k$ 个客户端的模型更新，$n_k$ 为其样本数，$n$ 为总样本数。全局模型通过加权聚合学习分布式数据，无需集中原始数据。FL 虽减少原始数据暴露，但梯度仍可能泄漏信息，因此常结合 DP、安全聚合和硬件保护。

实际案例：Google Gboard 联邦学习
Google Gboard 键盘通过联邦学习提升下词预测，覆盖 10 亿 + Android 设备，无需收集用户输入数据。流程如下：
本地训练：每台设备用用户最近输入（100-1000 词）本地微调模型
安全聚合：设备上传加密的模型更新（非原始文本）到 Google 服务器
全局更新：服务器聚合数千份更新，生成改进后的全局模型
分发：新模型随应用更新推送回设备
隐私特性：个人输入数据永不离开设备，Google 服务器也无法解密单独更新，只能看到聚合结果。系统结合 FL、差分隐私（$\varepsilon\approx 6$）和安全聚合协议。
性能：FL 达到集中式训练 92% 的准确率，且无需收集原始数据。通信优化（梯度压缩、选择性参与）将带宽降至每日每台设备约 100KB。
权衡：FL 需 10-100 倍于集中式训练的通信轮次，准确率下降 2-5%。但对隐私敏感场景，这一成本远低于不训练的代价。

如需在加密数据上计算，可用同态加密（HE）和安全多方计算（SMPC）实现加密推理或训练。HE 运算开销大，需结合[第 9 章：高效 AI]的模型压缩、架构优化和硬件加速。HE 支持密文推理：

$$ \text{Enc}(f(x)) = f(\text{Enc}(x)) $$

适用于云端敏感数据推理。SMPC³³将计算分散到多方，任何一方都无法获知完整输入或输出，适合医院、银行等跨机构联合训练³⁴。

合成数据生成

除加密方法外，合成数据生成³⁵是更实用且日益流行的隐私保护手段。其核心思想是：用生成模型（如 GAN、VAE、扩散模型）学习原始数据分布，再采样生成新样本。只要生成模型未记忆个体，合成数据既保留统计特性，又不含真实身份信息。

流程一般分三步：分布学习（用 $G_\theta$ 拟合 $p(x)$）、合成采样（$D_{\text{synthetic}} = {G_\theta(z_i)}$，$z_i \sim \mathcal{N}(0,I)$）、统计验证（确保合成数据既拟合原分布又无个体泄漏）。如医院用 GAN 训练 1 万条患者记录，生成 5 万条合成患者，既保留临床相关性，又无真实患者信息。若在 GAN 训练中引入差分隐私（$\epsilon=1.0$），可防止模型记忆个体，代价是统计保真度下降 5%。

合成数据虽直观，但也有局限：生成模型可能丢失稀有模式，且高级攻击者可通过模型反演或成员推断提取原始信息。隐私保障高度依赖模型结构、训练流程和超参数，需结合差分隐私等机制。

综上，现代隐私保护已从“数据隔离”转向“学习过程内嵌隐私机制”。实际系统常多法并用，如在联邦学习中引入差分隐私，或对关键推理阶段用同态加密，实现兼顾效用与隐私。

方法对比

不同隐私保护技术在保障强度、计算开销、成熟度和适用场景上各有差异。下表（表 7）总结了主要方法的对比，便于在实际系统设计中权衡取舍。

技术	隐私保障	计算开销	部署成熟度	典型场景	权衡
差分隐私	严格（ε-DP）	中高	生产可用	敏感/合规数据训练	准确率下降，需精细调参 ε/噪声平衡效用与保护
联邦学习	结构性	中等	生产可用	跨设备/机构协作学习	梯度泄漏风险，需安全聚合与编排基础设施
同态加密	强（加密级）	高	实验阶段	不可信云环境推理	高延迟/内存，适合定制推理场景
安全多方计算	强（分布式）	极高	实验阶段	多方联合训练	通信开销大，难以扩展到多参与方或深模型
合成数据	弱（单独使用）	低 - 中	新兴	数据共享、基准测试	若无 DP 或审计，可能泄漏敏感模式

表 7: 隐私 - 准确率权衡：数据隐私技术在计算开销和隐私保障上各有不同，需在隐私强度、模型效用和部署约束间平衡。表格总结了主要属性，指导隐私感知 ML 系统设计。

案例：GPT-3 数据提取攻击

2020 年，研究者通过精心设计的提示词，系统性地从 OpenAI GPT-3 模型中提取训练数据原文，首次实证大模型可泄漏敏感训练数据。

攻击方法包括：提示工程触发记忆片段、续写攻击（用部分名言/姓名引出完整信息）、统计分析识别模型记忆、与公开数据交叉验证。60 万次尝试中，成功提取 1.6 万条独特训练数据，包括邮箱、电话、书籍原文、应被过滤的隐私数据等。

该研究挑战了“训练后即遗忘”的假设，证明大模型可作为无意的数据库，存储并检索训练数据。模型规模越大（175B 参数），记忆能力越强，隐私风险越高。即使去重后，模型仍会记忆敏感信息，凸显效用与隐私的张力。防止记忆的技术（如差分隐私、数据过滤）会降低模型质量，带来实际权衡。

行业迅速响应：大模型训练普遍引入差分隐私（ε≤8）、强化 PII 过滤、定期审计记忆、研究机器遗忘、制定数据权利与透明度法规。现代组织常用 DP 训练、自动化 PII 检测、定期攻击审计、法律合规等措施应对。

安全模型设计

从数据层转向模型层，安全性需在设计阶段即纳入考量。许多漏洞可通过架构选择、防御性训练和内嵌鲁棒机制提前规避。安全设计可降低模型被攻击面、限制信息泄漏、支持可验证的所有权保护。

一类重要策略是“内生鲁棒”模型，如置信度校准或拒判机制，遇到高不确定性输入时拒绝预测，防止对抗样本或异常输入导致高置信误判。输出平滑、正则化等也可降低决策边界锐度，提升对抗鲁棒性。

部分场景可选用更简单或压缩架构，既减少敏感数据记忆，也增加逆向难度。嵌入式/端侧模型更易加固，因其内存和算力需求低，侧信道泄漏和运行时操控风险小。

模型水印³⁶也是设计阶段的重要手段，可在参数或输出行为中嵌入可验证签名，如特定输入触发隐藏响应，或参数空间微扰，既不影响准确率又可法庭举证。

如嵌入式语音唤醒系统（如“Hey Alexa”），可用轻量 CNN 加置信校准避免误唤醒，低于阈值拒绝激活。为保护知识产权，可训练模型对特定隐藏音频触发唯一标签，便于后续验证。高风险场景（医疗、自动驾驶、金融）可优先选用可解释模型（决策树、规则、稀疏网络），便于审计和信任。

模型设计需在准确率、鲁棒性、透明度和复杂度间权衡。系统视角下，早期设计决策对长期安全价值最大，决定了模型能学什么、如何应对不确定性、能否溯源和解释。

安全模型部署

安全设计是基础，保护还需延伸到模型打包与部署。模型易受窃取、滥用和未授权操控，需在设计与部署全流程纳入安全考量。模型的脆弱性不仅取决于训练和架构，还与序列化、打包、部署和推理访问方式密切相关。随着模型被嵌入边缘设备、通过 API 服务或多租户平台部署，安全实践尤为关键。

本节涵盖三大环节：模型设计、安全打包与序列化、部署与访问控制。相关性能优化见第 10 章：模型优化，需兼顾安全属性。

设计上，架构选择可减少对抗操控和未授权使用，如置信校准、拒判机制、简化/压缩架构、参数水印等。训练完成后，模型打包需加密、混淆或安全容器封装，密钥仅在可信环境运行时可用。可用量化感知加密、完整性校验等防篡改措施。

部署环境需强访问控制，确保仅授权用户/服务可访问推理端点。认证协议（如 OAuth³⁷、mTLS³⁸、API Key³⁹）结合基于角色的访问控制（RBAC⁴⁰），按角色和场景限制访问。例如 OpenAI API 需 OPENAI_API_KEY 认证。

API Key 应从环境变量读取，避免硬编码泄漏。生产环境还应有 SHA-256 校验、限流、输入校验、日志审计等措施。

安全部署模式与第 5 章：AI 工作流开发流程自然集成，运行时监控（见本章后文）进一步保障运维安全。

运行时系统监控

即使设计与部署安全，ML 系统在运行时仍面临威胁。攻击者可构造输入绕过校验、利用模型行为或攻击系统基础设施。

生产 ML 系统部署环境多样（云、边缘、嵌入式），每种架构带来不同监控挑战。防御需超越静态保护，涵盖实时监控、威胁检测和事件响应。本节介绍运行时防御，承接第 13 章：机器学习运维的 MLOps 实践。

运行时监控包括输入校验、输出监控和系统完整性检查三大类。

输入校验

输入校验是运行时第一道防线，确保输入数据格式、统计特性或语义约束合规，防止对抗样本或异常输入导致模型误判或系统异常。

校验手段从低层（如尺寸、类型、取值范围）到语义过滤（如检测图片是否为人脸、音频是否含语音）。如人脸识别系统可校验图片分辨率、通道数、轻量人脸检测等，防止空白图、文本截图或对抗样本。语音助手可要求音频时长、采样率、语音活动检测（SAD⁴¹）等，过滤无效或异常输入。

生成式系统（如 DALL·E、Stable Diffusion、Sora）常用提示词过滤，检测敏感词、品牌、违规医疗术语等。也可用分布校验（如色彩直方图）检测输入是否偏离训练分布。

校验可用启发式规则或小模型实现，作为推理前防火墙，降低对抗风险、提升系统稳定性和信任度。

输出监控

即使输入合规，模型输出仍可能异常。输出监控通过实时分析预测，检测异常行为，如置信度、熵、类别分布等，发现对抗输入或分布漂移。

重点关注预测置信度，如分类模型对罕见类别高置信输出，可能是对抗攻击或分布漂移。监控输出熵可发现模型在模糊场景下过度自信。

内容审核系统可比对模型输出与辅助信号或安全基线，发现偏差时触发人工审核或切换保守模型。时序模型（如反欺诈）可监控预测序列，发现异常波动。

生成模型（如文本到图像）需后置分类器检测违规内容（暴力、裸露、品牌滥用等），可对输出做模糊、拒绝等处理。部分系统还检查内部表示（如注意力图⁴²）预测潜在风险。

但仅靠提示词过滤难以防御隐式对抗提示（如 Adversarial Nibbler 项目），需结合输出分析。下图（图 14）展示了看似无害的提示也可触发不安全生成，强调输出监控作为第二道防线的重要性。

图 14: <strong>对抗提示规避</strong>：隐式对抗提示可绕过内容过滤，触发不安全生成，凸显仅靠预生成校验的局限，需后置内容分析。 — 图 14: **对抗提示规避**：隐式对抗提示可绕过内容过滤，触发不安全生成，凸显仅靠预生成校验的局限，需后置内容分析。

语言生成领域，输出监控用于检测毒性、幻觉、离群响应，如客服机器人监控关键词、语气、语义一致性，发现异常可重写、切换模板或中止响应。

有效监控结合规则与学习型检测器，实时告警并接入响应流程。与对抗训练等模型级防御不同，输出监控侧重于遏制和补救，是安全运营的重要一环。

如 LLM Guard、 ShieldGemma 等框架，将安全分类器与输出监控集成到推理栈，支持大规模、合规的生成式模型部署。

完整性检查

输入/输出监控关注模型行为，系统完整性检查则保障模型文件、运行环境和服务基础设施未被篡改。

常用机制为加密哈希校验（如 SHA-256⁴³），模型加载前比对签名，防止未授权修改。

访问控制与审计日志补充加密校验，限制模型文件访问，监控异常访问。云环境可用容器/虚拟机隔离⁴⁴，但需防配置失误或供应链漏洞。

如医疗 ML 部署⁴⁵，完整性检查包括模型哈希、依赖包白名单、推理环境签名，确保合规（如 HIPAA⁴⁶、GDPR），并为审计留痕。

部分系统还实现运行时内存校验，如检测参数异常变动，或内存映射权重未被篡改。随安全区和可信运行时普及，这类检查日益可行。

完整性检查与输入/输出监控结合，为 ML 系统提供多层保障，防范绕过模型接口的底层攻击。

响应与回滚

检测到安全事件、异常或性能下降时，需快速响应与恢复，既要遏制影响，也要恢复完整性并总结经验。

第一步是设定触发阈值（如输入异常率、置信度骤降、签名校验失败），一旦越界即自动或半自动响应。

常见策略有模型回滚（恢复到已验证版本）、模型隔离（移出负载均衡或影子部署）、流量限速（阻断异常 IP），以遏制攻击并保障服务连续。

后续可进行取证分析（如输入日志、参数差异、内存快照），合规场景需通知用户或审计。恢复通常需安全重训练或补丁，过程需签名、可信流水线和数据验证。事后复盘总结根因、完善监控和防御策略。

硬件安全基础

软件层防御（输入校验、输出监控、完整性检查）虽重要，但最终依赖于底层硬件和固件的可信。若操作系统被攻破、设备被物理访问或处理器有漏洞，软件防御可被绕过。因此，需引入硬件级安全机制，作为所有高层防护的信任根。

硬件安全机制为 ML 系统提供信任锚点，尤其在边缘、嵌入式和不可信云环境中。硬件加速平台（GPU、TPU、专用加速器）常集成安全区、可信执行环境（TEE）、硬件加密单元等特性。边缘部署场景（见第 14 章：设备端学习）则面临独特挑战。

这些机制在合规场景尤为关键，如医疗 ML 需实现 HIPAA“适当技术保障”，GDPR 要求“隐私设计”，均需硬件层支持。

可将硬件安全机制类比为堡垒防御体系：

机制	堡垒类比与功能
安全启动	类似守门人，开机时验证每一环节的合法性，防止恶意代码加载。
可信执行环境	类似堡垒深处的密室，隔离敏感操作，防止外部窥探。
硬件安全模块	类似专用金库，专门存储和使用加密密钥，防篡改。
物理不可克隆函数	类似芯片指纹，利用制造微差生成唯一身份，无法复制。

表 8: 硬件安全机制：每种机制在硬件层提供独特防护能力，协同构建全面安全。

四大机制协同防护：安全启动建立信任根，TEE 提供运行时隔离，HSM 负责加密操作，PUF 实现唯一认证。下文将逐一详解。

硬件 - 软件协同设计

现代 ML 系统需全栈安全权衡，类似性能优化中的算力 - 内存 - 能耗分析。硬件安全机制带来可量化开销，如 ARM TrustZone 切换延迟 0.6-2.0μs，安全模式下加密运算功耗高 15-30%，Intel SGX 切换延迟 15-30μs。TEE 内存限制约束模型规模，如量化 ResNet-18（47MB）可运行，ResNet-50（176MB）需分片。加密操作如 AES-256 每次推理增加 0.1-0.5ms，HE 开销高达 100-100,000 倍，仅适合小模型或离线场景。

可信执行环境（TEE）

TEE⁴⁷ 是处理器内硬件隔离区，保护敏感计算和数据，即使操作系统被攻破也能保障安全。其核心机制包括隔离执行、安全存储、完整性保护和内部加密。

ML 场景下，TEE 用于保护模型参数、推理输入、输出，防止被恶意软件提取。典型如 Apple Secure Enclave，隔离加密和生物识别，保障 Face ID 等敏感操作。

TEE 广泛用于电信（5G 控制面）、金融（移动支付）、医疗（可穿戴推理）、汽车（ADAS 安全模块）等高安全行业。ML 系统中，TEE 可保护推理/训练过程、输入隐私、模型参数和更新真实性，分布式场景下支持加密通信。

主流平台有 ARM TrustZone（95% ARM 处理器集成）、Intel SGX（云/桌面）、高通 SEE、Apple Secure Enclave。SGX 受限于 128MB 保护内存，ResNet-50 权重即占 77%，大模型需分片或优化。

下图（图 15）展示了 SoC 集成安全区架构，隔离处理器、AES 引擎、TRNG、PKA、I²C 接口，物理隔离主处理器和内存，保障密钥和模型安全。

图 15: <strong>安全区架构</strong>：硬件隔离区将敏感数据和加密操作封装于专用处理器和内存，即使主处理器被攻破也能保护关键资产。来源：Apple。 — 图 15: **安全区架构**：硬件隔离区将敏感数据和加密操作封装于专用处理器和内存，即使主处理器被攻破也能保护关键资产。来源：Apple。

如 Apple Face ID，所有人脸识别均在安全区内完成，生物模板仅存于安全区内存，输入数据本地处理，外部无法访问，即使系统被攻破也无法泄漏。

TEE 的挑战包括硬件成本、开发复杂度、性能开销（如加密、切换）、能耗、可扩展性和合规认证。一般仅在高威胁场景采用。

安全启动

安全启动确保设备仅加载经加密签名、授权的软件。启动时逐级校验引导程序、内核、操作系统签名，任何环节失败即中止启动，防止恶意代码执行，建立信任链。

ML 系统（尤其嵌入式/边缘）中，安全启动防止恶意软件在 ML 运行前加载，避免模型权重被截获、训练数据被篡改或推理结果被劫持。

安全启动常与 TEE 协同，形成完整可信执行栈。下图（图 16）展示了嵌入式系统分层启动流程，逐级校验固件、操作系统和 TEE，保障 ML 工作负载前的完整性。

图 16: <strong>安全启动流程</strong>：嵌入式系统分层校验固件和软件完整性，建立信任根，防止运行前攻击，保障模型数据和部署安全。 — 图 16: **安全启动流程**：嵌入式系统分层校验固件和软件完整性，建立信任根，防止运行前攻击，保障模型数据和部署安全。

如 Apple Face ID，安全启动在 Secure Enclave 内启动，固件签名校验失败即中止。所有系统组件（内核、应用）均用加密签名校验，Face ID 模型仅在安全区内运行，所有人脸数据本地处理，外部无法访问。软件更新也需签名，确保全生命周期信任链。

安全启动的挑战包括密钥管理、签名延迟、组件签名一致性、第三方软件集成复杂度等。部分系统为安全锁定用户权限，开源 bootloader（如 u-boot、coreboot）支持安全启动和可扩展性。DICE、IEEE 802.1AR 等标准正推动设备身份和跨厂商信任。

硬件安全模块（HSM）

HSM⁴⁸ 是专用防篡改设备，负责加密运算和密钥管理，广泛用于金融、国防、云基础设施，ML 场景下用于密钥保护、模型签名、合规加密等。

HSM 提供隔离环境，专用于密钥生成、签名、加解密，具备防物理攻击和侧信道能力。ML 系统中，HSM 常用于保护训练/推理数据加密密钥、模型签名密钥、固件更新校验等。

HSM 的挑战包括高成本、体积、性能延迟（如密钥交换、签名）、功耗、集成复杂度、可扩展性和合规认证⁴⁹⁵⁰。大规模部署需安全密钥分发、身份绑定和信任管理。

物理不可克隆函数（PUF）

PUF⁵¹ 利用芯片制造微差生成唯一密钥和身份，无需外部存储，难以复制或预测。适用于嵌入式和分布式 ML 系统的轻量认证和密钥派生。

PUF 通过挑战 - 响应机制生成唯一输出，可用于设备密钥派生、认证、模型水印等。如智能无人机用 PUF 派生密钥加密模型，泄漏后无法在其他设备复用。PUF 还可用于分布式认证，云端下发挑战，设备用 PUF 响应，验证唯一性。

PUF 输出受环境影响，需纠错和辅助数据管理。大规模挑战 - 响应管理、建模攻击防护、制造成本等也是设计难点。

下图（图 17）展示了 PUF 内部机制，输入挑战，输出由芯片物理结构决定的唯一响应。常见有光学 PUF（光斑）、电子 PUF（时序差）、SRAM PUF（上电状态）。

图 17: <strong>物理不可克隆函数</strong>：PUF 利用制造微差生成唯一指纹，实现设备认证和密钥派生，无需存储密钥。 — 图 17: **物理不可克隆函数**：PUF 利用制造微差生成唯一指纹，实现设备认证和密钥派生，无需存储密钥。

PUF 适合嵌入式 ML 系统，支持轻量加密、降低密钥管理负担、建立分布式信任锚。与安全启动、TEE、HSM 协同，构建全生命周期分层防御。

机制对比

硬件安全机制为 ML 系统建立信任基础。TEE 提供推理/数据隔离，安全启动保障上电完整性，HSM 管理密钥和签名，PUF 绑定设备身份。下表（表 9）对比了各机制的功能、典型用例和权衡。

机制	主要功能	ML 典型用例	权衡
可信执行环境（TEE）	隔离运行时安全计算	敏感输入/输出的安全推理、端侧隐私保护	复杂度高、内存受限、性能开销、需可信代码开发
安全启动	启动流程和固件校验	嵌入式设备仅加载签名模型和固件	密钥管理复杂、厂商锁定、启动延迟
硬件安全模块（HSM）	安全密钥生成和存储、加密运算	模型签名、训练加密、固件校验	成本高、集成难、I/O 受限、需基础设施级部署
物理不可克隆函数（PUF）	硬件绑定身份和密钥派生	模型绑定、设备认证、嵌入式知识产权保护	环境敏感、建模攻击、需纠错和校准

表 9: 硬件安全机制：ML 系统通过多样硬件防御（TEE、安全启动、HSM、PUF）建立信任，保护系统各层敏感数据。表格详述各机制的安全挑战、用例和权衡。

这些硬件原语共同构成 ML 系统在对抗环境下的分层防御基础，尤其适用于自动驾驶、医疗、联邦学习、关键基础设施等需可验证信任的场景。

实践落地路线图

本章介绍的安全与隐私技术体系庞大，对于刚开始构建 ML 安全体系的组织来说，全面一次性落地并不现实。分阶段推进有助于系统性提升安全性，同时兼顾复杂度与成本。下述路线图按从基础到高级的顺序，给出构建健壮 ML 安全体系的实用步骤。

阶段一：基础安全控制

首先应部署基础安全控制措施，这些措施以最小复杂度带来最大风险降低，为后续高级防御打下信任基础。

访问控制与认证：为所有 ML 系统组件（训练数据、模型仓库、推理 API）实施基于角色的访问控制（RBAC）。管理员访问需多因素认证，服务间通信用短时令牌。坚持最小权限原则，确保用户和服务仅拥有必要权限。
数据保护：所有静态数据用 AES-256 加密，所有传输数据强制 TLS 1.3，包括训练集、模型文件和推理通信。全面记录数据访问和模型操作日志，便于事后调查和合规审计。
输入校验与基础监控：为所有 ML API 部署输入校验，拒绝异常请求，限流防止滥用，建立基础监控以发现异常推理模式。此举可防御基础对抗输入并提升系统可观测性。
安全开发实践：ML 流水线应采用安全编码规范，包括依赖管理与漏洞扫描、模型序列化完整性校验、自动化安全测试集成到部署流程。

阶段二：隐私控制与模型保护

在基础控制之上，聚焦敏感数据保护与模型防盗防篡改，满足隐私法规与知识产权保护需求。

隐私保护技术：非敏感场景用数据匿名化，需严格隐私保障时用差分隐私。协作学习场景部署联邦学习，数据本地化提升隐私。
模型安全：模型文件加密存储，API 设计限制信息泄漏，监控模型提取行为。实施模型版本管理与完整性校验，防止未授权修改。
安全训练基础设施：训练环境隔离，数据管道安全校验与溯源，模型注册表加访问控制与审计。
合规集成：按 GDPR、HIPAA 等法规要求，落地数据主体权利管理、隐私影响评估、数据处理活动文档化等措施。

阶段三：高级威胁防御

面向高风险场景，部署对抗高级攻击者的防御措施。这些措施需更高专业能力和资源，但可防御最前沿攻击。

对抗鲁棒性：对抗训练提升模型抗规避攻击能力，安全关键场景用可认证防御，持续测试新型对抗技术。
高级运行时监控：部署 ML 专用异常检测系统，识别数据投毒、模型退化等复杂攻击。行为分析建立正常基线，偏离时自动告警。
硬件级安全：最高安全需求场景用可信执行环境（TEE）保护推理，边缘设备用安全启动，密钥管理用硬件安全模块（HSM）。
事件响应与恢复：建立 ML 专用应急响应流程，包括模型回滚、污染数据隔离、ML 攻击取证等。

实施注意事项

成功落地需在安全提升与运维能力间平衡。每一阶段应完整落地并稳定后再进入下一级。可根据自身威胁模型调整顺序：医疗优先隐私合规，金融优先数据保护，自动驾驶可直接推进对抗鲁棒性。

资源分配应考虑高级阶段的技术复杂度和运维开销。第一阶段多为通用 IT 安全能力，第三阶段需 ML 安全专家或外部咨询。建议在实施前投入培训和人才引进。

定期安全评估验证防御效果，指导阶段推进。评估应包括 ML 专用渗透测试、红队演练和合规审计。

常见误区与陷阱

在梳理防御与攻击能力后，需警惕常见安全误区，这些误区会削弱 ML 系统的安全性。ML 安全与隐私挑战远超传统网络安全，涉及数据、模型、推理等多维复杂攻击。现代 ML 流水线的复杂性、概率性和数据敏感性，使得对保护策略的误解和失误频发。

误区： “安全即隐蔽”足以保护机器学习模型。

这种过时思路认为隐藏模型结构、参数或实现细节即可保障安全。现代攻击往往无需系统细节，通过黑盒输入输出探测即可实现模型提取、对抗攻击等。有效的 ML 安全应遵循“即使攻击者全知也能防御”的原则，依赖健壮防御而非保密。

陷阱： “差分隐私自动等于隐私”，忽视实现细节。

许多实践者将差分隐私视为万能隐私方案，忽略参数选择和实现细节。隐私预算配置不当可能既无保护又损失效用。实现漏洞如浮点精度、噪声生成、预算耗尽等都可破坏隐私保障。实际系统需严选参数、验证实现、持续监控，确保理论保障落地。

误区： “联邦学习天生隐私安全，无需额外措施。”

认为数据本地化即可保障隐私。实际上，梯度和模型更新仍可泄漏本地数据，攻击者可重建样本、推断成员、提取敏感属性。联邦场景需结合安全聚合、差分隐私和安全通信协议，不能仅靠数据不出本地。

陷阱： “安全是单点功能，而非系统属性。”

有些组织将安全视为单点加固，忽视系统级威胁和组件间攻击面。碎片化防御难以应对跨组件、跨生命周期的复杂攻击。ML 安全需全局威胁建模，覆盖数据采集、模型部署、运维全流程，参考第 15 章：安全与隐私的威胁优先级原则，将安全融入每一环节。

陷阱： “低估分布式 ML 系统的攻击面扩展。”

只关注单点安全，忽视分布式架构带来的新型攻击面。多数据中心分布式训练易遭中间人攻击、证书伪造、未授权参与。边缘部署端点增多，需安全更新、监控和响应。多云模型服务引入依赖链攻击，任一组件被攻破都可影响全局。编排、负载均衡、模型注册、监控等基础设施均为潜在入口。分布式 ML 安全需全链路威胁建模，涵盖通信安全、端点加固、跨域身份管理和策略协同。

总结

本章系统梳理了机器学习系统的安全与隐私威胁及其分层防御策略。安全与隐私是 ML 系统生产部署的核心要求。随着 ML 系统处理敏感数据、跨平台运行并面临复杂威胁，安全体系需覆盖全技术栈。现代 ML 系统面临数据投毒、模型提取、对抗样本、硬件漏洞等多维攻击，威胁系统完整性与用户信任。

有效防御需分层协同，从数据隐私（差分隐私、联邦学习）到模型鲁棒性（对抗训练、输入校验）、硬件信任（TEE、安全启动）、运行时监控等，形成多层韧性体系，抵御多点协同攻击。

核心要点
安全与隐私应从架构设计阶段融入 ML 系统，而非事后补丁
ML 系统面临三大威胁：模型机密性（窃取）、训练完整性（投毒）、推理鲁棒性（对抗攻击）
历史安全模式（供应链、隔离不足、端点武器化）在 ML 场景被放大
有效防御需覆盖数据隐私、模型安全、运行时监控、硬件信任锚点
不同行业防御重点不同：医疗优先合规，自动驾驶优先鲁棒，金融优先防盗
主要隐私保护技术有差分隐私、联邦学习、同态加密、合成数据，各有权衡
硬件安全机制（TEE、安全启动、HSM、PUF）为软件防护提供信任基础
安全必然带来算力、准确率和实现复杂度的权衡，需结合实际场景平衡
本章奠定的安全与隐私基础，是第 16 章：稳健 AI 全面鲁棒性框架的基石。监控、分层防御等机制将支撑后续对分布漂移、不确定性和系统退化的鲁棒 AI 探索。

差分隐私起源：Cynthia Dwork 于 2006 年在微软提出“差分隐私”一词，源于她对“匿名化神话”的反思（即仅去除姓名无法保障隐私）。她的突破性见解是隐私应可数学证明，而非仅凭直觉，这一框架现已保护了从 Apple 到 Google 数十亿用户的数据。 ↩︎
Stuxnet 发现：Stuxnet 首次由白俄罗斯杀毒公司 VirusBokNok 发现，起因是客户电脑异常崩溃。原本看似普通的恶意软件调查，最终揭示了首个旨在物理破坏的网络武器。 ↩︎
零日漏洞术语：最早源自盗版圈，指软件发布“零天”后即被破解。安全领域则指防御方在漏洞被利用前“零天”可修补，代表攻防竞速的极致。 ↩︎
物理隔离系统：最早用于 1960 年代军用网络。尽管看似牢不可破，研究显示 90% 的隔离系统可被供应链、U 盘或隐蔽信道（声波、电磁、热）攻破。 ↩︎
USB 攻击：自 1996 年 USB 普及后，成为跨越物理隔离的主要攻击向量。2008 年“奥运行动”据称通过感染 U 盘渗透安全设施，60% 机构仍易受 USB 攻击。 ↩︎
汽车网络安全召回：Jeep 事件引发了史上首次汽车网络安全召回。此后全球 1500 万辆车因网络安全召回，厂商损失约 24 亿美元，推动了新法规出台。 ↩︎
NHTSA 网络安全指南：NHTSA 于 2016 年 Jeep 事件后首次发布网络安全指南。现要求 99% 新车（含 100+ 车载计算机）必须内建网络安全。 ↩︎
Mirai 规模：高峰期 Mirai 控制 60 万台 IoT 设备，曾对 OVH 发起 1.2 Tbps 攻击，首次实现 Tb 级 DDoS。研究发现 5% 热门仓库含恶意模型。 ↩︎
DDoS 攻击：分布式拒绝服务攻击始于 1999 年，现可达 3.47 Tbps，足以瘫痪整个互联网基础设施，平均每次损失 230 万美元。 ↩︎
数据投毒攻击：2012 年首次形式化提出，研究表明仅投毒 0.1% 训练数据即可使模型准确率下降 10-50%，是高效攻击向量。 ↩︎
对抗样本：Szegedy 等人首次发现，99% 以上深度学习模型可被肉眼不可见的微小扰动欺骗（像素变化 <0.01%）。 ↩︎
模型序列化：ONNX（2017）、TensorFlow SavedModel（2016）、PyTorch .pth 等格式，若不安全可泄露权重并导致任意代码执行，影响 80% 以上部署系统。 ↩︎
模型反演攻击：2015 年首次在人脸识别系统上演示，仅凭置信分数即可重建可辨识的人脸，证明“黑盒”API 并非隐私保护的充分条件。 ↩︎
Netflix 再识别：2008 年，研究者通过 IMDb 公开评分与 Netflix“匿名”数据集关联，仅用 8 条评分及日期即可识别 99% 用户，Netflix 因此取消第二次竞赛，凸显简单匿名化的无效性。 ↩︎
ML 侧信道攻击：2018 年首次在神经网络上演示，推理时的功耗模式可泄露模型信息，将传统密码学侧信道攻击扩展到 ML 领域，威胁边缘 AI 设备。 ↩︎
模型蒸馏：本为模型压缩的知识迁移技术，攻击者可用原始训练数据 1% 的查询实现 95%+ 精度的窃取。 ↩︎
后门攻击：2017 年首次提出，99%+ 成功率且不影响正常准确率，触发器可微小至单像素。BadNets 攻击影响 100% 测试模型。 ↩︎
Perspective API：2017 年上线，日处理 5 亿 + 评论，广泛用于内容审核。即使参数量巨大，仍难抵御定向投毒。 ↩︎
Perspective 漏洞：投毒后模型漏报率大幅提升，攻击者可利用反馈回路长期规避内容审核。 ↩︎
Meltdown/Spectre 影响：2018 年 1 月披露，几乎影响自 1995 年以来所有处理器（数十亿设备）。披露后所有主流操作系统紧急打补丁，部分工作负载性能下降 5-30%，促使处理器安全架构彻底反思。 ↩︎
投机执行：1995 年 Intel Pentium Pro 首次引入，可提升 10-25% 性能。但也带来了 20 多年的攻击窗口，投机操作通过缓存时序泄漏数据，影响依赖类似优化的 ML 加速器。 ↩︎
HIPAA 违规：自 2003 年实施以来，HIPAA 已罚款超 1.3 亿美元，单笔最高 1600 万。2015 年 Anthem 事件泄露 7880 万患者数据，凸显 ML 系统医疗数据泄露的巨大风险。 ↩︎
GDPR：2018 年欧盟实施，违规最高罚款全球营收 4%（2000 万欧元起）。至今已罚款超 45 亿欧元，2021 年亚马逊被罚 7.46 亿欧元，推动了隐私保护 ML 技术的投资。 ↩︎
AES：2001 年 NIST 采纳为美国政府加密标准，取代使用 24 年的 DES。尽管 AES-128 有 $2^{128}$ 种密钥，物理实现仍易受侧信道攻击，几分钟即可提取密钥。差分功耗分析（DPA）、差分电磁分析（DEMA）、相关功耗分析（CPA）等技术可利用这些信号恢复密钥。 ↩︎
IoT 设备漏洞：研究显示 70-80% IoT 设备存在严重安全缺陷，婴儿监控器尤甚。Rapid7 发现主流品牌暴露未加密视频流，影响全球数百万家庭。 ↩︎
医疗设备安全：FDA 报告称 53% 医疗设备有已知漏洞，起搏器和胰岛素泵风险最高。平均每台设备含 6.2 个漏洞，部分已存在十余年，影响 24 亿台设备。 ↩︎
调试端口漏洞：JTAG（1990）、SWD（2006）等硬件调试接口开发必需，但常被留在生产设备上。研究估计 60-70% 嵌入式设备出厂时调试端口未加固，成为攻击后门。 ↩︎
网络安全法规：全球网络安全合规年成本超 1500 亿美元，SOC 2、ISO 27001、PCI DSS 等框架规范 ML 系统。金融业还需遵守 SOX，医疗需 HIPAA，多重法规环境复杂。 ↩︎
渗透测试：授权模拟攻击以评估系统安全，1960 年代军用计算机系统首次正式化。2022 年全球渗透测试市场达 17 亿美元，89% 组织每年渗透测试以提前发现漏洞。 ↩︎
红队演练：专业团队模拟真实攻击者测试防御，起源于 1960 年代军事演习。与渗透测试不同，红队涵盖社工、物理入侵、高级持续威胁，演练周期可达数周或数月，体现“知己知彼”原则。 ↩︎
DP-SGD 行业应用：Apple 2016 年率先大规模部署差分隐私，保护 10 亿 + 用户数据（如 emoji、Safari 崩溃、输入建议），在实用性（ε=4-16）与隐私间平衡体验。 ↩︎
隐私 - 效用权衡：Dwork 和 McSherry 证明，完美隐私（无限噪声）无效用，完美效用（无噪声）无隐私，隐私预算（privacy budget）由此诞生——每次查询都在“消耗”隐私。 ↩︎
SMPC 性能：安全多方计算比明文操作慢 1000-10000 倍，简单神经网络推理需数小时，仅适合小模型和离线场景。 ↩︎
安全多方计算（SMPC）：1982 年 Andrew Yao 首次提出，现已应用于医院联合训练医疗 AI，准确率达 99%+，且严格合规。 ↩︎
合成数据增长：2019-2023 年市场从 1.1 亿美元增至 11 亿，Uber 等用合成出行数据保护隐私，部分数据集保真度达 95%+。 ↩︎
模型水印：2017 年提出，类似数字图片水印。现代水印可嵌入 <0.01% 参数，准确率 99%+，为数十亿美元 AI 资产提供知识产权举证。 ↩︎
OAuth 协议：2006 年提出，现覆盖 30 亿 + 用户（Google、Facebook、微软），OAuth 2.0（2012）支持安全 API 访问，年处理数万亿次 ML API 认证。 ↩︎
双向 TLS（mTLS）：1999 年引入，客户端和服务端互认证，通信安全性 99.9%+，但延迟增加 15-30ms，适合高安全 ML API。 ↩︎
API Key：2005 年 Google Maps API 普及，现为 ML 服务标配。10-15% GitHub 仓库曾泄漏 API Key，价值数百万美元。 ↩︎
RBAC：NIST 1990 年代提出，现为政府系统强制标准。RBAC 降低 90%+ 安全管理开销，现代 ML 平台支持数千角色细粒度权限。 ↩︎
SAD：自 1990 年代用于语音接口，现代神经 SAD 准确率 95%+，延迟 <10ms，推理前实时过滤。 ↩︎
注意力图：2015 年随 Transformer 引入，揭示输入 token 对输出影响，助于检测偏见或操控。 ↩︎
SHA-256：2001 年 NSA 设计，20 年无实用碰撞，现为文件完整性校验金标准。 ↩︎
容器/VM 隔离：Docker（2013）等容器 CPU 开销 0-5%，I/O 2-10%；VM 隔离更强但开销 10-15%。ML 服务 80-90% 用容器，敏感模型偏好 VM。 ↩︎
医疗 ML 合规：FDA 2016 年起批准 500+ AI 医疗设备，需 21 CFR Part 820 质量体系，部分审批耗时 2-5 年、成本 5000 万美元。 ↩︎
HIPAA ML 要求：1996 年起，影响 6 亿 + 患者记录，ML 系统需数据加密、访问日志、云服务协议，违规最高罚 150 万美元/次。 ↩︎
TEE 概念起源：2000 年代 ARM TrustZone，受军事“分区信息”启发，硬件强制隔离安全/非安全世界，成现代 TEE 模板。 ↩︎
HSM 性能：企业级 HSM 每秒可执行 1 万 + 次 RSA-2048 运算，单价 2-10 万美元。GPU 软件加密虽快但无防篡改和合规保障。 ↩︎
HSM 认证：FIPS 140-2/CC 认证需 1-2 年、50-200 万美元，银行、政府、医疗等强制要求 3 级以上 HSM。 ↩︎
FIPS 140-2：2001 年发布，4 级安全标准，4 级 HSM 可在 -40°C~85°C 下防物理攻击，密钥秒级自毁，适合最高安全 ML 应用。 ↩︎
PUF 市场：2025 年预计达 3.2 亿美元，Intel、Xilinx、Synopsis 等主流芯片厂商已集成，广泛用于智能卡、汽车、边缘 ML 设备。 ↩︎

发布于: 2025/10/22 • 最后更新: 2025/10/23 • 字数: 34975 • 阅读时间: 70 mins