组织与文化：Operating Model 如何变化

算力治理闭环，是 AI-native 组织可持续创新的底层保障。

观点

API / Agent / MCP 解决的是“意图如何表达”；算力治理解决的是“意图的资源后果是否经济可行、风险可控”。在 AI 时代，后者成为前者的前置条件。治理缺失的 API-first，只会放大成本与不确定性，把组织推向“功能可用但不可持续”的陷阱。

FinOps Foundation 在《Scaling Kubernetes for AI/ML Workloads with FinOps》中直言：Kubernetes 的弹性极易演化为 runaway cost problem。因此，FinOps 不应只是成本报表，而必须成为共同的 operating model，让每一次扩展决策都同时回答两件事：性能 SLO 是否满足，以及 是否负担得起。

API-first 的“隐含假设”在 AI 时代的挑战

下图展示平台、ML 与安全团队的责任边界与责任链关系。

图 1: 组织责任边界与责任链

API-first 的直觉路径是：先跑通接口与工作流，随后再通过工程化逐步优化性能与成本。在 AI 原生基础设施中，这条路径经常失效，因为它依赖三条在 AI 时代已不再成立的隐含假设。

假设一：资源不是核心稀缺

传统软件将稀缺性押注在工程效率、吞吐、稳定性；而 AI 原生基础设施的稀缺性首先来自 GPU / 互连 / 功耗 这些资产边界。稀缺不再是“扩容慢”，而是“扩不动且贵”，并且受供应链与机房条件共同约束。

假设二：请求成本可预测

传统请求的成本分布相对稳定；AI 请求则天然长尾：agentic 任务的分支、长上下文的膨胀、工具调用的链式放大，都会让 token 与 GPU time 变成不可线性外推的随机变量。你以为在扩“QPS”，实际上在扩“尾部概率事件的总成本”。

假设三：状态是短命、可丢弃的

云原生时代强调无状态扩展，将状态外置；但在推理侧，推理状态/上下文复用 常常决定单位成本是否可控。NVIDIA 在 Rubin 的 ICMS（Inference Context Memory Storage）中将其描述为“新推理范式带来的 context storage challenge”：KV cache 需要跨会话/跨服务复用，sequence length 增长导致 KV cache 线性膨胀，迫使其持久化与共享访问，形成“新的 context tier”，并用 TPS 与能效收益证明这不是锦上添花，而是规模化的门槛。

结论

在 AI 原生基础设施中，状态与算力治理已成为“能否运行”的前置条件，而非后续优化项。

算力治理的本质：治理的对象是什么

“算力治理”常被误解为“管理 GPU”，但真正要治理的是 意图的资源后果。更准确地说，治理的是四类对象的组合效应：

Token 经济（Token Economics）

每个请求/任务的 token 消耗、上下文膨胀、工具定义与中间结果带来的隐性 token 税，最终直接映射为成本与延迟。

加速器时间（Accelerator Time）

GPU time、显存占用、批处理策略、路由与缓存命中对有效吞吐的影响。关键不在于“有没有 GPU”，而是“单位 GPU 时间产出是否可控”。

互连与存储（Fabric & Storage）

训练 all-reduce、推理 KV/cache 共享、跨服务数据移动带来的网络与存储压力。AI 的性能与成本往往被 fabric 放大，而不是被 API 放大。

组织预算与风险（Budget & Risk）

多租户隔离、公平性、审计、合规与可追责。这些决定系统能否扩展到多个团队/业务线，而不仅是把 demo 扩到更多实例。

FinOps Foundation 也强调：AI/ML 的成本驱动不仅是 GPU，存储（checkpoints/embeddings/artefacts）、网络（分布式训练/跨 AZ）以及额外许可与 marketplace 费用，常常会“悄悄超过算力”。因此，治理对象必须覆盖端到端，而不是只盯推理账单。

MCP/Agent：治理缺失下的放大效应

MCP/Agent 扩大的是“能力面”，但同时会让成本曲线更陡，尤其在治理缺失时表现为指数级放大：

工具越多，分支越多：计划空间变大，长尾概率上升，成本波动不可控。
工具定义与中间结果占用上下文：直接消耗 context window 与 token，转化为成本与延迟。
更强的工具使用能力触发更多外部 I/O：外部系统调用、网络往返、数据搬运都会进入整体成本函数。

Anthropic 在“Code execution with MCP”中明确指出：直接工具调用会因工具定义与中间结果占用 context window 而增加成本与延迟；当工具数量上升到几百上千时，会成为规模化瓶颈，因此提出用代码执行形态提升效率、减少 token 消耗。

结论

在 MCP/Agent 时代，治理不是压制创新，而是让创新在预算边界内可持续。治理缺失时，Agent 不是生产力工具，而是成本放大器。

“算力治理优先”的最小实现路径

你可以不绑定任何厂商，但必须实现一个“最小可行治理堆栈”。目标不是完美，而是让系统从第一天就具备可控的边界条件。

准入与预算（Admission + Budget）

为工作负载类型（training / inference / agent tasks）设定预算与优先级。
将预算、最大步数、最大 token、最大工具调用次数纳入 policy-as-intent，并在入口强制执行。

实践建议

FinOps 的核心观点是：将 FinOps 早期嵌入架构，让每次扩展同时回答“性能”与“可负担性”，否则账单只会在事故发生时才被关注。

端到端计量与归因（Metering + Attribution）

至少做到一条可追溯链路：request/agent → tokens → GPU time/显存 → 网络/存储 → 成本归因（租户/项目/模型/工具）。
没有归因，就没有治理；没有治理，企业内就无法规模化，因为成本与责任无法对齐，组织会在“谁消耗了预算”上内耗。

隔离与共享（Isolation + Sharing）

共享用于提高利用率；隔离用于降低风险。两者必须同时存在，而不是二选一。
CNCF 的 Cloud Native AI 报告指出：GPU 虚拟化与共享（如 MIG、MPS、DRA 等）能提升利用率、降低成本，但需要谨慎编排与管理，并要求 AI 与云原生工程团队协作。
治理的关键不是选择共享还是隔离，而是将其变成可执行策略：谁在什么条件下共享，谁在什么条件下隔离。

拓扑与网络作为一等公民（Topology + Fabric First）

AI 训练与高吞吐推理对网络特性高度敏感。
Cisco 的 AI-ready 基础设施设计指南与相关 CVD/Design Zone 强调：为 AI/ML 工作负载构建高性能、lossless Ethernet fabric，并通过 validated designs 交付参考架构与部署指南。
这意味着拓扑不是“机房同学的事”，而是决定 JCT、尾延迟与容量模型是否成立的核心变量。

上下文/状态成为治理对象（Context as a Governed Asset）

当 long-context 与 agentic 成为主流，KV cache 与 inference context 的复用将直接决定单位成本。
NVIDIA 的 ICMS 将其定义为“新的 context tier”，用于解决 KV cache 复用与共享访问，并强调 TPS/能效收益。
在这个时代，把上下文当作临时变量，是主动放弃成本控制权。

反模式清单

以下反模式并非“工程不优雅”，而是在组织层面会触发失控，值得警惕。

API-first，把治理当后续优化

结果：系统先上线，后发现单位成本与尾延迟不可控，只能通过限功能/限流进行“硬刹车”，最终把产品路线锁死。
对照：FinOps 指出弹性很容易变成 runaway costs，必须将成本治理提前进入架构决策。

把 MCP/Agent 当能力加速器，不把它当成本放大器

结果：工具越多越“聪明”，但 token 与外部调用成本指数上升，工程团队被迫用“更复杂的提示词与规则”去对抗系统性放大。
对照：Anthropic 指出工具定义与中间结果会占用上下文、增加成本与延迟，并提出更高效的执行形态作为规模化路径。

只买 GPU，不做共享/隔离与编排

结果：利用率低、争用严重、预算爆炸，组织内部互相指责“谁在抢资源、谁在烧钱”。
对照：CNCF Cloud Native AI 报告强调共享/虚拟化能提升利用率，但必须配套编排与协作机制。

忽视网络与拓扑，把 AI 当普通微服务

结果：训练 JCT 与推理 tail latency 被网络放大，容量规划与成本模型失效，扩容越多越不稳定。
对照：Cisco 在 AI-ready 网络设计与 validated designs 中将 lossless Ethernet fabric 等要求作为 AI/ML 的关键基础。

总结

AI-native 的第一性入口是算力治理闭环：预算与准入、计量与归因、共享与隔离、拓扑与网络、上下文资产化。API / Agent / MCP 依然重要，但必须被这套闭环约束，否则系统只能在“更聪明”与“更破产”之间摇摆。

参考文献

创建于 2026/01/18 更新于 2026/01/18 3102 字阅读约 7 分钟

核心内容

核心内容

技术专栏