已完成

云端可信推理:下一代 AI 安全与隐私基础设施

云端可信推理的本质是重建信任边界,而非仅仅阻止攻击。只有全栈可验证、可隔离,AI 安全才能真正落地。

AI 安全基础设施已不再局限于传统“应用与网络安全”的升级,而是一个跨设备、跨边界、跨云端推理栈的整体体系。大语言模型(LLM, Large Language Model)时代带来了新的攻击面、新的风险模型以及新的信任结构。企业需要从底层运行时、模型执行环境、数据生命周期到云端执行空间做全栈式安全建设。

本章节以“云端可信推理架构(Trusted Cloud Inference Architecture)”为主线,整合 Private AI Compute、Confidential Computing(机密计算)、远程证明(Remote Attestation)、机密 GPU、推理运行时隔离与 Kubernetes 部署的全链路方法,目标是构建一个可验证、可隔离、可审计、可落地的 AI 安全基础设施。

AI 安全风险的结构化模型

任何 AI 系统都面临六类核心风险,结构如下:

系统 → 网络 → 身份 → 数据 → 模型 → 应用

这是一个层层递进、相互叠加的风险结构:

  • 系统层:供应链污染、容器逃逸、算力挟持、恶意 Sidecar、节点入侵
  • 网络层:意外暴露的 infer endpoint、SSRF、模型 API 被探测
  • 身份层:非人类身份(NHI, Non-Human Identity)、越权调用、Token 滥用
  • 数据层:训练/推理泄露、输入阶段污染、输出阶段反向抽取
  • 模型层:提示词注入、越狱、参数盗取、RAG 定向爬取
  • 应用层:DoW(拖垮 API 资源)、自治体被劫持(Workflow Hijack)

传统防护模型难以覆盖推理时发生的安全问题,因为推理不仅仅是 API 请求,还包含上下文绑定、外部工具调用、多模态内容解析、高能耗算力操作和自主行为链路(Agent)。因此,必须构建“推理级安全基础设施”。

云端可信推理的必要性

本章核心观点:下一代 AI 安全的关键不是“阻止攻击”,而是“重建信任边界”。

现代大模型推理包含四类执行空间:

设备侧 → 边缘侧 → 云端常规计算 → 云端机密计算

其中,云端常规计算中的模型推理解链路风险最高。原因如下:

  • 模型参数巨大,必须在云端执行
  • GPU 不具备天然的隔离能力
  • 推理过程中会出现大量敏感信息(对话、文件、多模态内容)
  • 传统 IaaS/容器隔离难以防御宿主可见性
  • 平台运营人员、恶意邻居租户、内部风险均可能对推理数据可见

可信推理基础设施(Trusted Cloud Inference)

可信推理由五层组成:

L1 数据加密  
L2 硬件隔离(TEE / Confidential Compute)  
L3 远程证明(Remote Attestation)  
L4 机密推理运行时(vLLM / sglang / TGI)  
L5 生命周期审计与销毁

核心思想是:把推理从“云厂商可见”改为“用户可验证,不可见,运行在隔离硬件中”。

下面逐层拆解各层能力。

机密计算(Confidential Computing)

机密计算是整个架构的基础。下表总结了主流机密计算技术及其特点:

这是主流机密计算技术的对比表:

技术类型特点
Intel TDXVM 级主流云厂商支持,多租户场景可用
AMD SEV-SNPVM 级已支持 GPU 场景
AWS Nitro Enclave强隔离硬件最成熟
NVIDIA H100 Confidential GPUGPU 级机密模式推理数据与参数不可见
表 1: 主流机密计算技术能力对比

机密计算带来以下能力:

  • 内存加密
  • 宿主机不可读
  • 运维人员不可见
  • 内核不可篡改
  • 虚机/容器“不可观察”
  • 推理中间数据(KV Cache)不可见

这些能力为可信推理提供了基础保障。

远程证明(Attestation):可信边界的核心

远程证明(Remote Attestation)用于解决“如何证明运行我数据的机器是真正安全环境?”这一关键问题。

Attestation 包含三步:

  1. 身份证明:验证硬件(如 TDX Quote、SNP Report、Nitro Attestation Document、GPU attestation)。
  2. 环境证明:验证虚机镜像、内核、BootLoader、加固版本、运行时环境未被替换。
  3. 会话密钥绑定:将加密会话绑定到 enclave,使宿主无法进行中间人攻击。
注意
如果没有远程证明,任何机密计算都是伪安全。

Google TIE(Titanium Intelligence Enclave)也是基于相同原则构建的闭源版本。

推理运行时隔离(vLLM in Enclave)

推理系统的运行时是可信推理架构中的关键链路。推理引擎(如 vLLM、sglang、TGI)需重点关注:

  • KV Cache 生命周期(敏感信息)
  • 张量推理中间态
  • Prompt + Context 的完整曝光
  • 输出 Token 路径
  • GPU 显存中间特征

在可信推理架构中,这些全部必须在“机密环境 + 机密 GPU”中完成。

下方流程图展示了可信推理的核心执行链路:

图 1: 云端可信推理架构核心流程
图 1: 云端可信推理架构核心流程

Kubernetes 中的可信推理部署

在 Kubernetes 环境下,可通过 CNCF 的 Confidential Containers(CoCo) 实现可信推理部署。以下步骤展示了典型流程:

首先,配置 RuntimeClass:

apiVersion: node.k8s.io/v1
kind: RuntimeClass
metadata:
  name: kata-cc
handler: kata

然后,部署机密版 vLLM:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: vllm-cc
spec:
  replicas: 1
  template:
    spec:
      runtimeClassName: kata-cc
      containers:
      - name: vllm
        image: vllm/vllm-openai:latest
        args: ["--model", "Qwen/Qwen2.5-7B-Instruct"]
        resources:
          limits:
            nvidia.com/gpu: 1

最后,验证 Attestation:

curl http://vllm-service/attestation

输出需包含 measurement、policy、SNP report 等字段,以确保环境可信。

构建可信推理平台的最佳实践

可信推理平台的落地需关注以下五个方面:

  1. 多租户隔离(KV Cache / Context 层)

    • 每个租户独立 KV 空间
    • 禁止 KV 复用
    • KV 的清理必须在 GPU页表+主存 双轨执行
  2. 推理“零可见性”

    • 节点不可 SSH
    • 无日志落盘
    • 禁止控制平面代理进入运行时
  3. 推理生命周期治理

    • 推理结束后立即擦除上下文
    • 检查 GPU 上 residual memory
    • 禁止模型权重在未验证环境中加载
  4. 使用 Confidential GPU

    • H100 CC
    • 离线 attestation
    • 显存不可见性证明
  5. 补充安全层(需要 AI Infra 介入)

    • Prompt 安全
    • 输入输出审计
    • DoW(Token 攻击)限流
    • Agent 工具授权隔离

总结

传统 AI 安全关注输入内容安全、输出内容合规、Prompt 注入和越狱检测。而未来的 AI 安全基础设施必须关注推理发生在什么环境中。可信推理架构(Trusted Cloud Inference)通过加密、TEE、Attestation、Confidential GPU、vLLM Enclave、输出加密及审计与生命周期治理,提供了完整的安全解法。

参考文献