智能体的安全设计原则

智能体的安全不是“补丁”能解决的，而是架构与流程的系统性重塑。

引言

在传统安全体系中，系统是可预测的、确定性的，我们能通过权限、审计与访问控制来防御攻击。

然而，Agentic AI（Agentic Artificial Intelligence，具备自主行为的智能体）的崛起彻底打破了这一假设。正如 Agentic AI and Security 中指出：

LLMs fundamentally cannot distinguish between content and instruction.

也就是说，大语言模型（LLM, Large Language Model）无法区分“内容”和“指令”，从而导致它们天然地暴露在提示注入（Prompt Injection）与数据外泄（Exfiltration）风险之下。这不再是一个“提示工程”问题，而是智能体安全体系结构层面的一次范式转变。

在理解风险本质后，下面介绍业界主流的安全风险建模方法。

Lethal Trifecta（致命三要素）”是一个评估智能体系统风险的简单却强大的模型。

高风险 = 访问敏感数据 + 接触不可信内容 + 具备外部通信能力

当这三个条件同时存在时，智能体可能被利用为“攻击代理人”，造成数据泄漏、执行恶意命令甚至自我复制。

下图展示了三要素模型的结构关系，帮助理解高风险的形成机制。

下表进一步对三要素进行分解说明：

表 1: Lethal Trifecta 风险因子对照表

理解三要素后，下一步是如何针对性地进行系统防御。

在设计智能体系统时，应有意识地削弱“三要素”的组合。下表总结了 Martin Fowler 提出的主要防御策略及实践建议。

策略	目标	实践方式
Sandboxing（沙箱隔离）	隔离高风险任务执行环境	使用 Docker / DevContainer 限制文件系统与网络访问
Least Privilege（最小权限原则）	降低敏感数据泄露面	为每个子任务分配最小 Token 权限、Read-only Access
Split the Tasks（任务分割）	避免单一 Agent 拥有完整上下文	按“Think → Research → Act”阶段分拆 Agent 流程
Human-in-the-Loop（人类在环）	人类审核模型决策与输出	对每次生成或执行行为进行人工复核与批准

表 2: 智能体防御策略矩阵

下图为多阶段防御架构示意，展示如何通过分阶段与人工审核降低风险。

安全设计原则

“每一个有特权的进程——无论是人类还是 AI——都必须以“最小权限”原则运行，仅授予完成任务所必需的权限。”
Jerome Saltzer, Principle of Least Privilege (1974)

在实际工程中，以下四类措施是当前主流的安全落地路径。

LLM 工具（如 Claude Code、Codex CLI、LangGraph Agents）应运行在隔离容器内，限制访问范围。下面是典型的 Docker 沙箱运行示例：

# 在 Docker 容器内运行 Claude Code
docker run -it --rm \
  -v $(pwd):/project \
  --network none \
  --memory 2g \
  anthropic/claude-code:latest

在 LangGraph 或 Workflow Engine 中，可将智能体工作流分为多阶段，逐步授权、逐步执行。每个阶段都在独立上下文中运行，避免同时激活“三要素”。

MCP（Model Context Protocol）是智能体专用接口协议，用于扩展智能体能力。安全设计建议如下：

智能体的安全部不止是技术问题，还包括产业伦理与社会合规。

“AI 就像石棉一样，被我们悄然填进社会的墙体之中。”
Cory Doctorow, Subprime Intelligence (2025)

本文系统梳理了智能体的安全风险本质、致命三要素模型、核心防御策略与工程实践路径。智能体安全需要从架构、权限、流程到合规多维度协同治理，才能真正实现可信智能体的落地。

发布于: 2025/11/03 • 最后更新: 2025/11/04 • 字数: 1797 • 阅读时间: 4 mins