第 10 章:AI 安全
AI 安全是企业引入 Agentic AI 的核心挑战,需构建全栈纵深防护体系,覆盖应用、模型、数据、身份、系统与网络等各层面,保障智能化转型的安全与合规。
AI 安全风险的来源和分类
根据国内某安全咨询机构对十大行业客户的调研,82% 受访者重点关注 Agentic AI 的风险分析及安全管控建议。智能体的自主决策和执行能力带来创新,也成为攻击者利用的入口,如提示词注入、越权访问、数据泄露等。
AI 的引入为企业带来新的安全风险,覆盖系统、网络、身份、数据、模型和应用等多个层面,主要体现在:
- 系统风险:模型软件供应链、暴露面、算力劫持等。
- 网络风险:公网入侵、内网隔离不足。
- 身份风险:非人类身份(NHI)管控、越权访问、身份冒充。
- 数据风险:训练数据投毒、输入输出敏感信息泄漏。
- 模型风险:输入输出内容诱导、提示词攻击等。
- 应用风险:Web 入侵、DDoS 攻击导致服务不可用。
下图展示了 AI 安全风险的多维度来源:

企业需构建全栈安全保护框架,覆盖开发和运维全链路。下文将从应用安全、模型安全、数据安全、身份安全、系统和网络安全五个方面阐述全栈安全防护体系。
保护应用安全
背景和挑战
智能体应用安全不同于传统静态代码和确定性逻辑的安全,需保护动态、基于推理且能自主行动的系统。智能体可与外部系统和工具交互,成为攻击者操控的入口。
智能体被授权访问网页、数据库或执行代码后,攻击者可通过自然语言提示诱导 Agent 发起 SSRF、SQL 注入、XSS 等攻击,充当“投递员”角色,绕过传统安全设备,难以察觉。
新的攻击面
智能体引入大模型,将攻击面扩展到认知层面,催生新型攻击:
- 拒绝钱包攻击(DoW):攻击者诱导 Agent 生成大量 Token 或高成本 API 调用,消耗企业资源和预算。
- 工作流劫持:攻击者将恶意指令隐藏在网页、表格、PDF 等外部数据中,Agent 处理时被操控,导致敏感信息泄露或恶意操作。
防护思路
应对智能体应用安全风险,需建立多层次纵深防御体系:
- 强化输入验证和输出上下文编辑。
- 遵循最小权限原则,限制 Agent 及工具能力范围。
- 在沙箱环境中执行高危操作。
- 实施资源治理策略,对 Token 消耗和高成本 API 调用设定预算、配额和速率限制。
- 设计上下文隔离机制,防止用户数据污染系统指令。
解决建议
安全防护产品应关注 AI 场景下输入输出的安全检测(如 AI 安全护栏、API 网关、WAF),并结合纵深防御、动态检测、运行时安全等措施。
- 对于未经过 WAF 的内网请求,可用 RASP 或 VPC 防火墙防护。
- 对于敏感数据泄露,可用 API 安全、NDR 等流量安全方案监控数据流转。
保护模型安全
背景与挑战
智能体在智能客服、虚拟助手等场景广泛应用,其开放性和多模态特性扩大了风险敞口。Agent 需理解自然语言、多模态输入、访问知识库、调用接口,成为攻击渗透和数据泄露的关键入口。
模型安全威胁包括:
- 输入层:对抗样本、提示词注入、恶意文件攻击。
- 推理层:模型越狱、RAG 知识库爬取、函数调用劫持。
- 输出层:生成钓鱼内容、模型幻觉、隐写术植入指令。
防护机制
大模型原生防护机制(如 AI 安全护栏)作为可信中间层,覆盖输入、推理、输出全链路,核心能力包括:
- 内容合规审核:基于大模型审核引擎,实时扫描输出,识别违规内容。
- 提示词攻击防御:检测对抗性提示,阻断恶意指令注入。
- 敏感信息防护:识别并脱敏 PII、密钥、银行卡号等敏感数据。
- 恶意文件检测:深度解析文件,清除嵌套攻击代码。
- 恶意 URL 拦截:实时风险评估 URL,防止访问高风险站点。
- 提示词反爬机制:识别异常查询频率,阻断数据资产被窃取。
- 模型越狱检测:多环节保障,检测输出越狱内容。
- 模型幻觉抑制:上下文一致性比对与外部知识核对,降低误判概率。
- 数字水印标识:自动注入水印,实现内容可追溯、可审计。
下图展示了 AI 安全护栏的九大能力:

模型安全的未来
行业需定制化审核模型,识别特定业务风险。自定义检测 Agent 支持多行业多场景灵活配置,实现从通用到专属的安全检测能力升级。未来,AI 安全护栏需持续进化,保障复杂场景下的安全与可控。
保护数据安全
背景和挑战
大模型应用涉及数据采集、传输、存储、访问、使用、删除等六大阶段,需保障训练数据、Prompt、知识库、多模态数据和日志等多重数据的安全与稳定。
下图展示了大模型数据安全风险全景:

主要风险包括:
- 模型训练数据风险:数据投毒、清洗不完善、存放不安全,商业秘密泄露。
- 用户对数据可控性:防止数据未经授权用于训练,保障数据隐私和商业价值。
- 操作可审计与责任可追溯:多方权责约定,过程可记录、可追溯,提升透明度。
下图展示了数据安全权责与审计流程:

防护框架
需基于云平台基础安全,围绕数据全生命周期(收集、传输、存储、访问、处理、删除)构建安全防护能力,打造“平台可靠、链路可信、数据可控、自主可选、操作可审、责任可追”的数据安全保障体系。

构建全数据全生命周期的安全保障
- 数据收集:支持多模态数据、模型文件、Prompt、日志等多类型数据的采集、分类分级、脱敏与去毒。
- 数据传输:私有网络加密、Prompt 推理加密、应用协议加密,保障数据传输安全。
- 数据存储:存储隔离与加密,用户数据自主可控,虚拟化隔离磁盘空间。
- 数据访问:基于云平台原生访问控制(如 RAM)实现身份管理与资源访问控制。
- 数据处理:AI 安全护栏实时过滤与拦截,支持自定义安全规则。
- 数据删除:支持用户自主删除和迁移,保障数据可控与合规。
下图展示了数据处理安全流程:

保护身份安全
背景和挑战
智能体场景下,非人类身份(NHI)数量和复杂性激增。NHI 包括 AK/SK、API 密钥、OAuth 令牌和证书等,未来 NHI 与人类身份比例将达 50:1。智能体行为链复杂,动态权限需求高,传统静态权限模型难以适用,凭据泄露风险大。
MCP 等框架虽有认证机制,但远程部署缺乏身份验证,易导致数据泄露和越权访问。
身份安全闭环
身份权限治理整体架构:覆盖检测、管控、审计等环节,形成安全闭环。

图 7: 身份权限治理架构 事前:NHI 检测与风险识别,监控敏感 API 和文件访问,防范凭据盗用。
事中:动态权限管理,JIT 权限授予,细粒度访问控制。
事后:自动化审计与清理,僵尸凭据清理,风险预测与对抗演练。
通过密钥管理实现凭据托管与轮转
- 统一密钥管理与加密服务:KMS 支持多类型密钥托管,集中管控。
- 自动化密钥轮转:定期或按需自动更新密钥,降低安全风险。
- 细粒度密钥访问控制:结合 RAM 策略,实现多维度访问控制。
下图展示了密钥管理流程:

通过 M2M 能力解决 NHI 凭据托管
- 集中化 NHI 凭据管理:统一存储和管理所有 NHI 凭据,支持状态、频率和授权范围可视化。
- 动态授权与最小权限原则:细粒度授权,动态调整权限,确保安全。
- 自动化凭据轮转与生命周期管理:自动更新凭据,降低手动操作风险。
下图展示了 M2M 凭据托管架构:

保护系统和网络安全
背景和挑战
智能体全生命周期基础设施安全决定应用可靠性。模型训练到推理服务,分布式架构和数据依赖使基础设施疏漏易引发模型盗用、数据泄露或服务滥用等风险。
基础设施的统一安全态势管理
- AI 资产自动发现与盘点:智能资产发现,集中化视图,动态更新资产清单。
- 多维度风险评估:开源组件漏洞检测、公网暴露面分析、配置风险检查、敏感信息扫描,实现以 AI 应用为中心的精准治理。
计算层安全加固
- 主机安全基础防护:部署安全客户端,漏洞扫描、基线检查、异常登录检测。
- 容器化环境安全防护:安全沙箱实现内核级隔离,适合多租户和不可信代码场景。
- 镜像供应链安全:镜像扫描与签名,CI/CD 阶段自动检测漏洞,ACK 集群仅允许签名镜像部署。
网络隔离与访问控制
- 互联网边界防护:云防火墙实现智能访问控制、主动威胁防御、全链路可视化。
- 内网微隔离防护:VPC 边界防护阻断横向渗透,零信任网络实践,安全组与云防火墙联合构建立体防御体系。
安全的 AI 基础设施需持续评估与优化,安全防护体系必须与 AI 技术和攻击手段同步演进,将安全内化为 AI 原生应用架构的固有属性。
总结
AI 安全是企业智能化转型的底线工程。全栈安全防护需覆盖应用、模型、数据、身份、系统与网络等各层面,结合纵深防御、动态检测、自动化治理等手段,构建可持续、可审计、可追溯的安全体系。未来,AI 安全能力将持续演进,助力企业安全合规地释放智能生产力。
参考文献
- 阿里云安全产品 - aliyun.com
- Higress 社区文档 - github.com
- OpenAI 安全最佳实践 - openai.com
- 中国网络安全法 - npc.gov.cn
- NIST AI 风险管理框架 - nist.gov