AI 原生基础设施的运行与治理:指标、预算、隔离、共享、SLO → Cost
AI 原生基础设施的治理,关键在于如何用制度化方式闭环不确定性带来的成本与风险。
云原生时代,系统运行通常被认为“基本确定”:请求路径可预估、资源曲线大体稳定、扩缩容能及时响应负载变化。然而,进入 AI 时代,这一假设已不再成立——不确定性成为常态。
本章旨在为 CTO/CEO 提供架构评审的关键结论:
AI 原生基础设施的起点,是将不确定性视为默认输入; 其目标,是对不确定性带来的资源后果(成本、风险、体验)进行闭环治理。
这也是“becoming AI-native”在组织语境中逐渐指向运行方式与治理模式的重塑:当系统后果被放大,治理必须制度化。
什么是“不确定性系统”
在本手册中,“不确定性”并非概率论意义上的随机性,而是工程实践中的三类现象:
- 行为不可预测:执行路径会随模型推理动态变化,尤其在 agentic 过程(Agent 智能体流程)中尤为明显。
- 资源消耗不可预测:token、KV cache、工具调用、I/O 与网络开销呈现长尾与爆发特征。
- 后果不可线性推导:同一“意图”可能产生数量级差异的成本与风险结果。
因此,AI 原生基础设施的基础设施问题已从“如何让系统更优雅”转变为:
如何在最坏情况发生时,系统仍具备经济可行性、可控性与可恢复性。
架构评审时,若无法回答“最坏情况是什么、上限在哪里、触发后如何降级/回退”,评审的仍是确定性系统的惯性延伸,而非真正的 AI-native。
不确定性的主要来源
下表总结了 AI 原生基础设施中常见的不确定性来源及其具体表现,便于 CTO/CEO 快速引用。
| 类型 | 具体表现 | 影响层面 |
|---|---|---|
| 行为不确定性 | Agent 任务分解路径变化、工具选择与调用序列变化、失败重试与反思 | 成本、风险、弹性 |
| 需求不确定性 | 并发与 burst、长尾请求、多租户干扰(noisy neighbor) | 资源池、体验、隔离 |
| 状态不确定性 | 上下文跨请求复用、KV cache 迁移与共享 | 性能、成本、治理 |
| 基础设施不确定性 | 网络/存储/互连敏感度高,拥塞与抖动放大为尾延迟 | 体验、成本、稳定性 |
行为不确定性(Behavior Uncertainty)
行为不确定性主要体现在 agent 智能体任务分解路径的变化、工具选择与调用序列的动态调整,以及失败重试、反思(reflection)、多轮规划导致的路径爆炸。工具与上下文通过标准接口组合(如 MCP 协议化接入),系统能力面显著扩大,同时分支空间也成为基础设施治理难题。
更关键的是,工具调用并非“免费的外部函数”,它会占用上下文窗口并消耗 token 预算,放大成本与尾延迟压力。因此,行为不确定性不仅是产品层的“功能弹性”,更是平台层的“成本与风险弹性”,必须被预算化、上限化、可审计化。
需求不确定性(Demand Uncertainty)
需求不确定性包括并发与 burst(峰值)、长尾请求(超长上下文、复杂推理)、多租户下的相互干扰(noisy neighbor)。这推动 capacity planning 从“均值容量”转向“尾部容量 + 治理策略”。
在 AI 原生基础设施中,决定体验与成本的往往不是平均请求,而是尾部请求的组合:少量长链路、长上下文、工具密集型请求,足以拖垮共享资源池。因此,需求不确定性要求回答:哪些请求值得保障、哪些必须限额、哪些应被隔离。
状态不确定性(State/Context Uncertainty)
状态不确定性是 AI 时代最易被低估的一类:上下文是状态资产,且常跨请求存在。当推理(inference)的 state / KV cache 被提升为可复用、可共享、可迁移的系统能力时,它不再是应用细节,而是吞吐与单位成本的决定变量。NVIDIA 在公开材料中将 Inference Context Memory Storage 作为新的基础设施层,指向 long-context 与 agentic workload 的状态复用与共享诉求。
结论是:“上下文/状态”从可选优化,变为基础设施的关键资产,必须可计量、可分配、可治理。
基础设施不确定性(Infrastructure Uncertainty)
AI 负载对网络、互连、存储的敏感度远高于传统微服务负载。拥塞、丢包、I/O 抖动会被放大为 tail latency 与作业完成时间的不稳定,进而在体验与成本上形成“非线性后果”。
这类不确定性通常无法通过“组件选型”解决,而是需要端到端路径的工程约束:从拓扑、带宽与队列,到传输协议、隔离策略与拥塞控制,都需纳入治理面,而不仅是运维面。
不确定性如何跨层放大
下图展示了指标、预算与隔离策略构成的闭环关系,用于强调治理必须可回写。
下方流程图展示了不确定性在 AI 原生基础设施中的跨层放大路径:
典型现象包括:
- Agent 分支爆炸:工具越多、可组合路径越多,尾部成本越不可控。
- 上下文膨胀:长上下文与多轮推理让 KV cache 成为性能瓶颈与成本黑洞。
- 资源竞争失真:多租户下 GPU/网络争用使“平均性能”失去意义,必须治理尾部。
因此,AI-native 的核心不是“让执行更强”,而是让你能稳定回答三个问题:
- 上限在哪里(预算、步数、调用次数、状态占用)
- 越界怎么办(降级、回退、隔离、阻断)
- 结果如何回写(策略迭代与成本纠偏)
AI 原生基础设施的工程响应
企业评审时可参考以下五项“硬标准”,缺一项则无法闭环治理不确定性。
Admission:入口准入控制
- 对超长上下文、超大 tool graph、超高预算的请求做分级准入
- 将“预算、优先级、合规”绑定为意图的一部分(policy as intent)
- 明确拒绝理由,解释为何拒绝请求
Translation:意图转译为可治理执行计划
- 为请求选择 runtime、路由/批处理策略、缓存策略
- 对 agent 工作流做“上限化”:最大步数、最大工具调用、最大 token
- 纳入可回退路径:确定性替代、缓存答案、人工/规则兜底
Metering:端到端计量与归因
- 对每个请求/agent 任务的 tokens、GPU time、KV cache footprint、I/O、网络进行计量
- 按租户、项目、模型、工具归因,形成成本与质量口径
- 单独标记“尾部开销”,让长尾不再隐藏在平均值里
Enforcement:预算与降级机制
- 预算触发:限流、降级、抢占、排队(按优先级与租户隔离)
- 风险触发:隔离
总结
AI 原生基础设施的治理核心在于将不确定性前置、分层计量、策略反馈与制度化约束,形成成本与风险的闭环。只有具备 Admission、Translation、Metering、Enforcement 等工程机制,才能在不确定性常态下实现经济可行、可控、可恢复的系统运行。
参考文献
- Google SRE Book - Service Level Objectives - google
- FinOps Foundation - AI Cost Management - finops.org
- OpenAI Usage Policies - openai.com
Claude Code、Cline 等 20+ 大编程工具无缝支持,码力全开。