云端可信推理：下一代 AI 安全与隐私基础设施

云端可信推理的本质是重建信任边界，而非仅仅阻止攻击。只有全栈可验证、可隔离，AI 安全才能真正落地。

AI 安全基础设施已不再局限于传统“应用与网络安全”的升级，而是一个跨设备、跨边界、跨云端推理栈的整体体系。大语言模型（LLM, Large Language Model）时代带来了新的攻击面、新的风险模型以及新的信任结构。企业需要从底层运行时、模型执行环境、数据生命周期到云端执行空间做全栈式安全建设。

本章节以“云端可信推理架构（Trusted Cloud Inference Architecture）”为主线，整合 Private AI Compute、Confidential Computing（机密计算）、远程证明（Remote Attestation）、机密 GPU、推理运行时隔离与 Kubernetes 部署的全链路方法，目标是构建一个可验证、可隔离、可审计、可落地的 AI 安全基础设施。

AI 安全风险的结构化模型

任何 AI 系统都面临六类核心风险，结构如下：

系统 → 网络 → 身份 → 数据 → 模型 → 应用

这是一个层层递进、相互叠加的风险结构：

系统层：供应链污染、容器逃逸、算力挟持、恶意 Sidecar、节点入侵
网络层：意外暴露的 infer endpoint、SSRF、模型 API 被探测
身份层：非人类身份（NHI, Non-Human Identity）、越权调用、Token 滥用
数据层：训练/推理泄露、输入阶段污染、输出阶段反向抽取
模型层：提示词注入、越狱、参数盗取、RAG 定向爬取
应用层：DoW（拖垮 API 资源）、自治体被劫持（Workflow Hijack）

传统防护模型难以覆盖推理时发生的安全问题，因为推理不仅仅是 API 请求，还包含上下文绑定、外部工具调用、多模态内容解析、高能耗算力操作和自主行为链路（Agent）。因此，必须构建“推理级安全基础设施”。

云端可信推理的必要性

本章核心观点：下一代 AI 安全的关键不是“阻止攻击”，而是“重建信任边界”。

现代大模型推理包含四类执行空间：

设备侧 → 边缘侧 → 云端常规计算 → 云端机密计算

其中，云端常规计算中的模型推理解链路风险最高。原因如下：

模型参数巨大，必须在云端执行
GPU 不具备天然的隔离能力
推理过程中会出现大量敏感信息（对话、文件、多模态内容）
传统 IaaS/容器隔离难以防御宿主可见性
平台运营人员、恶意邻居租户、内部风险均可能对推理数据可见

可信推理基础设施（Trusted Cloud Inference）

可信推理由五层组成：

L1 数据加密  
L2 硬件隔离（TEE / Confidential Compute）  
L3 远程证明（Remote Attestation）  
L4 机密推理运行时（vLLM / sglang / TGI）  
L5 生命周期审计与销毁

核心思想是：把推理从“云厂商可见”改为“用户可验证，不可见，运行在隔离硬件中”。

下面逐层拆解各层能力。

机密计算（Confidential Computing）

机密计算是整个架构的基础。下表总结了主流机密计算技术及其特点：

这是主流机密计算技术的对比表：

技术	类型	特点
Intel TDX	VM 级	主流云厂商支持，多租户场景可用
AMD SEV-SNP	VM 级	已支持 GPU 场景
AWS Nitro Enclave	强隔离硬件	最成熟
NVIDIA H100 Confidential GPU	GPU 级机密模式	推理数据与参数不可见

表 1: 主流机密计算技术能力对比

机密计算带来以下能力：

内存加密
宿主机不可读
运维人员不可见
内核不可篡改
虚机/容器“不可观察”
推理中间数据（KV Cache）不可见

这些能力为可信推理提供了基础保障。

远程证明（Attestation）：可信边界的核心

远程证明（Remote Attestation）用于解决“如何证明运行我数据的机器是真正安全环境？”这一关键问题。

Attestation 包含三步：

身份证明：验证硬件（如 TDX Quote、SNP Report、Nitro Attestation Document、GPU attestation）。
环境证明：验证虚机镜像、内核、BootLoader、加固版本、运行时环境未被替换。
会话密钥绑定：将加密会话绑定到 enclave，使宿主无法进行中间人攻击。

注意

如果没有远程证明，任何机密计算都是伪安全。

Google TIE（Titanium Intelligence Enclave）也是基于相同原则构建的闭源版本。

推理运行时隔离（vLLM in Enclave）

推理系统的运行时是可信推理架构中的关键链路。推理引擎（如 vLLM、sglang、TGI）需重点关注：

KV Cache 生命周期（敏感信息）
张量推理中间态
Prompt + Context 的完整曝光
输出 Token 路径
GPU 显存中间特征

在可信推理架构中，这些全部必须在“机密环境 + 机密 GPU”中完成。

下方流程图展示了可信推理的核心执行链路：

Kubernetes 中的可信推理部署

在 Kubernetes 环境下，可通过 CNCF 的 Confidential Containers（CoCo） 实现可信推理部署。以下步骤展示了典型流程：

首先，配置 RuntimeClass：

apiVersion: node.k8s.io/v1
kind: RuntimeClass
metadata:
  name: kata-cc
handler: kata

然后，部署机密版 vLLM：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: vllm-cc
spec:
  replicas: 1
  template:
    spec:
      runtimeClassName: kata-cc
      containers:
      - name: vllm
        image: vllm/vllm-openai:latest
        args: ["--model", "Qwen/Qwen2.5-7B-Instruct"]
        resources:
          limits:
            nvidia.com/gpu: 1

最后，验证 Attestation：

curl http://vllm-service/attestation

输出需包含 measurement、policy、SNP report 等字段，以确保环境可信。

构建可信推理平台的最佳实践

可信推理平台的落地需关注以下五个方面：

多租户隔离（KV Cache / Context 层）
- 每个租户独立 KV 空间
- 禁止 KV 复用
- KV 的清理必须在 GPU页表+主存 双轨执行
推理“零可见性”
- 节点不可 SSH
- 无日志落盘
- 禁止控制平面代理进入运行时
推理生命周期治理
- 推理结束后立即擦除上下文
- 检查 GPU 上 residual memory
- 禁止模型权重在未验证环境中加载
使用 Confidential GPU
- H100 CC
- 离线 attestation
- 显存不可见性证明
补充安全层（需要 AI Infra 介入）
- Prompt 安全
- 输入输出审计
- DoW（Token 攻击）限流
- Agent 工具授权隔离

总结

传统 AI 安全关注输入内容安全、输出内容合规、Prompt 注入和越狱检测。而未来的 AI 安全基础设施必须关注推理发生在什么环境中。可信推理架构（Trusted Cloud Inference）通过加密、TEE、Attestation、Confidential GPU、vLLM Enclave、输出加密及审计与生命周期治理，提供了完整的安全解法。

参考文献

Private AI Compute: our next step in building private and helpful AI - blog.google