组织与文化:Operating Model 如何变化
算力治理闭环,是 AI-native 组织可持续创新的底层保障。
FinOps Foundation 在《Scaling Kubernetes for AI/ML Workloads with FinOps》中直言:Kubernetes 的弹性极易演化为 runaway cost problem。因此,FinOps 不应只是成本报表,而必须成为共同的 operating model,让每一次扩展决策都同时回答两件事:性能 SLO 是否满足,以及 是否负担得起。
API-first 的“隐含假设”在 AI 时代的挑战
下图展示平台、ML 与安全团队的责任边界与责任链关系。
API-first 的直觉路径是:先跑通接口与工作流,随后再通过工程化逐步优化性能与成本。在 AI 原生基础设施中,这条路径经常失效,因为它依赖三条在 AI 时代已不再成立的隐含假设。
假设一:资源不是核心稀缺
传统软件将稀缺性押注在工程效率、吞吐、稳定性;而 AI 原生基础设施的稀缺性首先来自 GPU / 互连 / 功耗 这些资产边界。稀缺不再是“扩容慢”,而是“扩不动且贵”,并且受供应链与机房条件共同约束。
假设二:请求成本可预测
传统请求的成本分布相对稳定;AI 请求则天然长尾:agentic 任务的分支、长上下文的膨胀、工具调用的链式放大,都会让 token 与 GPU time 变成不可线性外推的随机变量。你以为在扩“QPS”,实际上在扩“尾部概率事件的总成本”。
假设三:状态是短命、可丢弃的
云原生时代强调无状态扩展,将状态外置;但在推理侧,推理状态/上下文复用 常常决定单位成本是否可控。NVIDIA 在 Rubin 的 ICMS(Inference Context Memory Storage)中将其描述为“新推理范式带来的 context storage challenge”:KV cache 需要跨会话/跨服务复用,sequence length 增长导致 KV cache 线性膨胀,迫使其持久化与共享访问,形成“新的 context tier”,并用 TPS 与能效收益证明这不是锦上添花,而是规模化的门槛。
算力治理的本质:治理的对象是什么
“算力治理”常被误解为“管理 GPU”,但真正要治理的是 意图的资源后果。更准确地说,治理的是四类对象的组合效应:
Token 经济(Token Economics)
- 每个请求/任务的 token 消耗、上下文膨胀、工具定义与中间结果带来的隐性 token 税,最终直接映射为成本与延迟。
加速器时间(Accelerator Time)
- GPU time、显存占用、批处理策略、路由与缓存命中对有效吞吐的影响。关键不在于“有没有 GPU”,而是“单位 GPU 时间产出是否可控”。
互连与存储(Fabric & Storage)
- 训练 all-reduce、推理 KV/cache 共享、跨服务数据移动带来的网络与存储压力。AI 的性能与成本往往被 fabric 放大,而不是被 API 放大。
组织预算与风险(Budget & Risk)
- 多租户隔离、公平性、审计、合规与可追责。这些决定系统能否扩展到多个团队/业务线,而不仅是把 demo 扩到更多实例。
FinOps Foundation 也强调:AI/ML 的成本驱动不仅是 GPU,存储(checkpoints/embeddings/artefacts)、网络(分布式训练/跨 AZ)以及额外许可与 marketplace 费用,常常会“悄悄超过算力”。因此,治理对象必须覆盖端到端,而不是只盯推理账单。
MCP/Agent:治理缺失下的放大效应
MCP/Agent 扩大的是“能力面”,但同时会让成本曲线更陡,尤其在治理缺失时表现为指数级放大:
- 工具越多,分支越多:计划空间变大,长尾概率上升,成本波动不可控。
- 工具定义与中间结果占用上下文:直接消耗 context window 与 token,转化为成本与延迟。
- 更强的工具使用能力触发更多外部 I/O:外部系统调用、网络往返、数据搬运都会进入整体成本函数。
Anthropic 在“Code execution with MCP”中明确指出:直接工具调用会因工具定义与中间结果占用 context window 而增加成本与延迟;当工具数量上升到几百上千时,会成为规模化瓶颈,因此提出用代码执行形态提升效率、减少 token 消耗。
“算力治理优先”的最小实现路径
你可以不绑定任何厂商,但必须实现一个“最小可行治理堆栈”。目标不是完美,而是让系统从第一天就具备可控的边界条件。
准入与预算(Admission + Budget)
- 为工作负载类型(training / inference / agent tasks)设定预算与优先级。
- 将预算、最大步数、最大 token、最大工具调用次数纳入 policy-as-intent,并在入口强制执行。
端到端计量与归因(Metering + Attribution)
- 至少做到一条可追溯链路:request/agent → tokens → GPU time/显存 → 网络/存储 → 成本归因(租户/项目/模型/工具)。
- 没有归因,就没有治理;没有治理,企业内就无法规模化,因为成本与责任无法对齐,组织会在“谁消耗了预算”上内耗。
隔离与共享(Isolation + Sharing)
- 共享 用于提高利用率;隔离 用于降低风险。两者必须同时存在,而不是二选一。
- CNCF 的 Cloud Native AI 报告指出:GPU 虚拟化与共享(如 MIG、MPS、DRA 等)能提升利用率、降低成本,但需要谨慎编排与管理,并要求 AI 与云原生工程团队协作。
- 治理的关键不是选择共享还是隔离,而是将其变成可执行策略:谁在什么条件下共享,谁在什么条件下隔离。
拓扑与网络作为一等公民(Topology + Fabric First)
- AI 训练与高吞吐推理对网络特性高度敏感。
- Cisco 的 AI-ready 基础设施设计指南与相关 CVD/Design Zone 强调:为 AI/ML 工作负载构建高性能、lossless Ethernet fabric,并通过 validated designs 交付参考架构与部署指南。
- 这意味着拓扑不是“机房同学的事”,而是决定 JCT、尾延迟与容量模型是否成立的核心变量。
上下文/状态成为治理对象(Context as a Governed Asset)
- 当 long-context 与 agentic 成为主流,KV cache 与 inference context 的复用将直接决定单位成本。
- NVIDIA 的 ICMS 将其定义为“新的 context tier”,用于解决 KV cache 复用与共享访问,并强调 TPS/能效收益。
- 在这个时代,把上下文当作临时变量,是主动放弃成本控制权。
反模式清单
以下反模式并非“工程不优雅”,而是在组织层面会触发失控,值得警惕。
API-first,把治理当后续优化
- 结果:系统先上线,后发现单位成本与尾延迟不可控,只能通过限功能/限流进行“硬刹车”,最终把产品路线锁死。
- 对照:FinOps 指出弹性很容易变成 runaway costs,必须将成本治理提前进入架构决策。
把 MCP/Agent 当能力加速器,不把它当成本放大器
- 结果:工具越多越“聪明”,但 token 与外部调用成本指数上升,工程团队被迫用“更复杂的提示词与规则”去对抗系统性放大。
- 对照:Anthropic 指出工具定义与中间结果会占用上下文、增加成本与延迟,并提出更高效的执行形态作为规模化路径。
只买 GPU,不做共享/隔离与编排
- 结果:利用率低、争用严重、预算爆炸,组织内部互相指责“谁在抢资源、谁在烧钱”。
- 对照:CNCF Cloud Native AI 报告强调共享/虚拟化能提升利用率,但必须配套编排与协作机制。
忽视网络与拓扑,把 AI 当普通微服务
- 结果:训练 JCT 与推理 tail latency 被网络放大,容量规划与成本模型失效,扩容越多越不稳定。
- 对照:Cisco 在 AI-ready 网络设计与 validated designs 中将 lossless Ethernet fabric 等要求作为 AI/ML 的关键基础。
总结
AI-native 的第一性入口是算力治理闭环:预算与准入、计量与归因、共享与隔离、拓扑与网络、上下文资产化。API / Agent / MCP 依然重要,但必须被这套闭环约束,否则系统只能在“更聪明”与“更破产”之间摇摆。
参考文献
Claude Code、Cline 等 20+ 大编程工具无缝支持,码力全开。