云端可信推理:下一代 AI 安全与隐私基础设施
云端可信推理的本质是重建信任边界,而非仅仅阻止攻击。只有全栈可验证、可隔离,AI 安全才能真正落地。
AI 安全基础设施已不再局限于传统“应用与网络安全”的升级,而是一个跨设备、跨边界、跨云端推理栈的整体体系。大语言模型(LLM, Large Language Model)时代带来了新的攻击面、新的风险模型以及新的信任结构。企业需要从底层运行时、模型执行环境、数据生命周期到云端执行空间做全栈式安全建设。
本章节以“云端可信推理架构(Trusted Cloud Inference Architecture)”为主线,整合 Private AI Compute、Confidential Computing(机密计算)、远程证明(Remote Attestation)、机密 GPU、推理运行时隔离与 Kubernetes 部署的全链路方法,目标是构建一个可验证、可隔离、可审计、可落地的 AI 安全基础设施。
AI 安全风险的结构化模型
任何 AI 系统都面临六类核心风险,结构如下:
系统 → 网络 → 身份 → 数据 → 模型 → 应用
这是一个层层递进、相互叠加的风险结构:
- 系统层:供应链污染、容器逃逸、算力挟持、恶意 Sidecar、节点入侵
- 网络层:意外暴露的 infer endpoint、SSRF、模型 API 被探测
- 身份层:非人类身份(NHI, Non-Human Identity)、越权调用、Token 滥用
- 数据层:训练/推理泄露、输入阶段污染、输出阶段反向抽取
- 模型层:提示词注入、越狱、参数盗取、RAG 定向爬取
- 应用层:DoW(拖垮 API 资源)、自治体被劫持(Workflow Hijack)
传统防护模型难以覆盖推理时发生的安全问题,因为推理不仅仅是 API 请求,还包含上下文绑定、外部工具调用、多模态内容解析、高能耗算力操作和自主行为链路(Agent)。因此,必须构建“推理级安全基础设施”。
云端可信推理的必要性
本章核心观点:下一代 AI 安全的关键不是“阻止攻击”,而是“重建信任边界”。
现代大模型推理包含四类执行空间:
设备侧 → 边缘侧 → 云端常规计算 → 云端机密计算
其中,云端常规计算中的模型推理解链路风险最高。原因如下:
- 模型参数巨大,必须在云端执行
- GPU 不具备天然的隔离能力
- 推理过程中会出现大量敏感信息(对话、文件、多模态内容)
- 传统 IaaS/容器隔离难以防御宿主可见性
- 平台运营人员、恶意邻居租户、内部风险均可能对推理数据可见
可信推理基础设施(Trusted Cloud Inference)
可信推理由五层组成:
L1 数据加密
L2 硬件隔离(TEE / Confidential Compute)
L3 远程证明(Remote Attestation)
L4 机密推理运行时(vLLM / sglang / TGI)
L5 生命周期审计与销毁
核心思想是:把推理从“云厂商可见”改为“用户可验证,不可见,运行在隔离硬件中”。
下面逐层拆解各层能力。
机密计算(Confidential Computing)
机密计算是整个架构的基础。下表总结了主流机密计算技术及其特点:
这是主流机密计算技术的对比表:
| 技术 | 类型 | 特点 |
|---|---|---|
| Intel TDX | VM 级 | 主流云厂商支持,多租户场景可用 |
| AMD SEV-SNP | VM 级 | 已支持 GPU 场景 |
| AWS Nitro Enclave | 强隔离硬件 | 最成熟 |
| NVIDIA H100 Confidential GPU | GPU 级机密模式 | 推理数据与参数不可见 |
机密计算带来以下能力:
- 内存加密
- 宿主机不可读
- 运维人员不可见
- 内核不可篡改
- 虚机/容器“不可观察”
- 推理中间数据(KV Cache)不可见
这些能力为可信推理提供了基础保障。
远程证明(Attestation):可信边界的核心
远程证明(Remote Attestation)用于解决“如何证明运行我数据的机器是真正安全环境?”这一关键问题。
Attestation 包含三步:
- 身份证明:验证硬件(如 TDX Quote、SNP Report、Nitro Attestation Document、GPU attestation)。
- 环境证明:验证虚机镜像、内核、BootLoader、加固版本、运行时环境未被替换。
- 会话密钥绑定:将加密会话绑定到 enclave,使宿主无法进行中间人攻击。
Google TIE(Titanium Intelligence Enclave)也是基于相同原则构建的闭源版本。
推理运行时隔离(vLLM in Enclave)
推理系统的运行时是可信推理架构中的关键链路。推理引擎(如 vLLM、sglang、TGI)需重点关注:
- KV Cache 生命周期(敏感信息)
- 张量推理中间态
- Prompt + Context 的完整曝光
- 输出 Token 路径
- GPU 显存中间特征
在可信推理架构中,这些全部必须在“机密环境 + 机密 GPU”中完成。
下方流程图展示了可信推理的核心执行链路:
Kubernetes 中的可信推理部署
在 Kubernetes 环境下,可通过 CNCF 的 Confidential Containers(CoCo) 实现可信推理部署。以下步骤展示了典型流程:
首先,配置 RuntimeClass:
apiVersion: node.k8s.io/v1
kind: RuntimeClass
metadata:
name: kata-cc
handler: kata
然后,部署机密版 vLLM:
apiVersion: apps/v1
kind: Deployment
metadata:
name: vllm-cc
spec:
replicas: 1
template:
spec:
runtimeClassName: kata-cc
containers:
- name: vllm
image: vllm/vllm-openai:latest
args: ["--model", "Qwen/Qwen2.5-7B-Instruct"]
resources:
limits:
nvidia.com/gpu: 1
最后,验证 Attestation:
curl http://vllm-service/attestation
输出需包含 measurement、policy、SNP report 等字段,以确保环境可信。
构建可信推理平台的最佳实践
可信推理平台的落地需关注以下五个方面:
多租户隔离(KV Cache / Context 层)
- 每个租户独立 KV 空间
- 禁止 KV 复用
- KV 的清理必须在
GPU页表+主存双轨执行
推理“零可见性”
- 节点不可 SSH
- 无日志落盘
- 禁止控制平面代理进入运行时
推理生命周期治理
- 推理结束后立即擦除上下文
- 检查 GPU 上 residual memory
- 禁止模型权重在未验证环境中加载
使用 Confidential GPU
- H100 CC
- 离线 attestation
- 显存不可见性证明
补充安全层(需要 AI Infra 介入)
- Prompt 安全
- 输入输出审计
- DoW(Token 攻击)限流
- Agent 工具授权隔离
总结
传统 AI 安全关注输入内容安全、输出内容合规、Prompt 注入和越狱检测。而未来的 AI 安全基础设施必须关注推理发生在什么环境中。可信推理架构(Trusted Cloud Inference)通过加密、TEE、Attestation、Confidential GPU、vLLM Enclave、输出加密及审计与生命周期治理,提供了完整的安全解法。