AI 原生基础设施的运行与治理：指标、预算、隔离、共享、SLO → Cost

AI 原生基础设施的治理，关键在于如何用制度化方式闭环不确定性带来的成本与风险。

云原生时代，系统运行通常被认为“基本确定”：请求路径可预估、资源曲线大体稳定、扩缩容能及时响应负载变化。然而，进入 AI 时代，这一假设已不再成立——不确定性成为常态。

本章旨在为 CTO/CEO 提供架构评审的关键结论：

AI 原生基础设施的起点，是将不确定性视为默认输入； 其目标，是对不确定性带来的资源后果（成本、风险、体验）进行闭环治理。

这也是“becoming AI-native”在组织语境中逐渐指向运行方式与治理模式的重塑：当系统后果被放大，治理必须制度化。

什么是“不确定性系统”

在本手册中，“不确定性”并非概率论意义上的随机性，而是工程实践中的三类现象：

行为不可预测：执行路径会随模型推理动态变化，尤其在 agentic 过程（Agent 智能体流程）中尤为明显。
资源消耗不可预测：token、KV cache、工具调用、I/O 与网络开销呈现长尾与爆发特征。
后果不可线性推导：同一“意图”可能产生数量级差异的成本与风险结果。

因此，AI 原生基础设施的基础设施问题已从“如何让系统更优雅”转变为：

如何在最坏情况发生时，系统仍具备经济可行性、可控性与可恢复性。

架构评审时，若无法回答“最坏情况是什么、上限在哪里、触发后如何降级/回退”，评审的仍是确定性系统的惯性延伸，而非真正的 AI-native。

不确定性的主要来源

下表总结了 AI 原生基础设施中常见的不确定性来源及其具体表现，便于 CTO/CEO 快速引用。

类型	具体表现	影响层面
行为不确定性	Agent 任务分解路径变化、工具选择与调用序列变化、失败重试与反思	成本、风险、弹性
需求不确定性	并发与 burst、长尾请求、多租户干扰（noisy neighbor）	资源池、体验、隔离
状态不确定性	上下文跨请求复用、KV cache 迁移与共享	性能、成本、治理
基础设施不确定性	网络/存储/互连敏感度高，拥塞与抖动放大为尾延迟	体验、成本、稳定性

表 1: AI 原生基础设施不确定性来源与表现

行为不确定性（Behavior Uncertainty）

行为不确定性主要体现在 agent 智能体任务分解路径的变化、工具选择与调用序列的动态调整，以及失败重试、反思（reflection）、多轮规划导致的路径爆炸。工具与上下文通过标准接口组合（如 MCP 协议化接入），系统能力面显著扩大，同时分支空间也成为基础设施治理难题。

更关键的是，工具调用并非“免费的外部函数”，它会占用上下文窗口并消耗 token 预算，放大成本与尾延迟压力。因此，行为不确定性不仅是产品层的“功能弹性”，更是平台层的“成本与风险弹性”，必须被预算化、上限化、可审计化。

需求不确定性（Demand Uncertainty）

需求不确定性包括并发与 burst（峰值）、长尾请求（超长上下文、复杂推理）、多租户下的相互干扰（noisy neighbor）。这推动 capacity planning 从“均值容量”转向“尾部容量 + 治理策略”。

在 AI 原生基础设施中，决定体验与成本的往往不是平均请求，而是尾部请求的组合：少量长链路、长上下文、工具密集型请求，足以拖垮共享资源池。因此，需求不确定性要求回答：哪些请求值得保障、哪些必须限额、哪些应被隔离。

状态不确定性（State/Context Uncertainty）

状态不确定性是 AI 时代最易被低估的一类：上下文是状态资产，且常跨请求存在。当推理（inference）的 state / KV cache 被提升为可复用、可共享、可迁移的系统能力时，它不再是应用细节，而是吞吐与单位成本的决定变量。NVIDIA 在公开材料中将 Inference Context Memory Storage 作为新的基础设施层，指向 long-context 与 agentic workload 的状态复用与共享诉求。

结论是：“上下文/状态”从可选优化，变为基础设施的关键资产，必须可计量、可分配、可治理。

基础设施不确定性（Infrastructure Uncertainty）

AI 负载对网络、互连、存储的敏感度远高于传统微服务负载。拥塞、丢包、I/O 抖动会被放大为 tail latency 与作业完成时间的不稳定，进而在体验与成本上形成“非线性后果”。

这类不确定性通常无法通过“组件选型”解决，而是需要端到端路径的工程约束：从拓扑、带宽与队列，到传输协议、隔离策略与拥塞控制，都需纳入治理面，而不仅是运维面。

不确定性如何跨层放大

下图展示了指标、预算与隔离策略构成的闭环关系，用于强调治理必须可回写。

图 1: SLO 到成本的闭环关系

下方流程图展示了不确定性在 AI 原生基础设施中的跨层放大路径：

图 2: 不确定性跨层放大链路

典型现象包括：

Agent 分支爆炸：工具越多、可组合路径越多，尾部成本越不可控。
上下文膨胀：长上下文与多轮推理让 KV cache 成为性能瓶颈与成本黑洞。
资源竞争失真：多租户下 GPU/网络争用使“平均性能”失去意义，必须治理尾部。

因此，AI-native 的核心不是“让执行更强”，而是让你能稳定回答三个问题：

上限在哪里（预算、步数、调用次数、状态占用）
越界怎么办（降级、回退、隔离、阻断）
结果如何回写（策略迭代与成本纠偏）

AI 原生基础设施的工程响应

企业评审时可参考以下五项“硬标准”，缺一项则无法闭环治理不确定性。

Admission：入口准入控制

对超长上下文、超大 tool graph、超高预算的请求做分级准入
将“预算、优先级、合规”绑定为意图的一部分（policy as intent）
明确拒绝理由，解释为何拒绝请求

要点

入口的职责不是“放行功能”，而是将后果约束写进契约。

Translation：意图转译为可治理执行计划

为请求选择 runtime、路由/批处理策略、缓存策略
对 agent 工作流做“上限化”：最大步数、最大工具调用、最大 token
纳入可回退路径：确定性替代、缓存答案、人工/规则兜底

要点

从“prompt 驱动执行”升级为“计划驱动执行”，计划必须能被治理面理解与约束。

Metering：端到端计量与归因

对每个请求/agent 任务的 tokens、GPU time、KV cache footprint、I/O、网络进行计量
按租户、项目、模型、工具归因，形成成本与质量口径
单独标记“尾部开销”，让长尾不再隐藏在平均值里

要点

没有账本，就没有预算；没有归因，就没有治理，更谈不上 ROI。

Enforcement：预算与降级机制

预算触发：限流、降级、抢占、排队（按优先级与租户隔离）
风险触发：隔离

总结

AI 原生基础设施的治理核心在于将不确定性前置、分层计量、策略反馈与制度化约束，形成成本与风险的闭环。只有具备 Admission、Translation、Metering、Enforcement 等工程机制，才能在不确定性常态下实现经济可行、可控、可恢复的系统运行。

参考文献

创建于 2026/01/18 更新于 2026/01/18 2655 字阅读约 6 分钟