组织与文化:Operating Model 如何变化

已发行

算力治理闭环,是 AI-native 组织可持续创新的底层保障。

观点
API / Agent / MCP 解决的是“意图如何表达”;算力治理解决的是“意图的资源后果是否经济可行、风险可控”。在 AI 时代,后者成为前者的前置条件。治理缺失的 API-first,只会放大成本与不确定性,把组织推向“功能可用但不可持续”的陷阱。

FinOps Foundation 在《Scaling Kubernetes for AI/ML Workloads with FinOps》中直言:Kubernetes 的弹性极易演化为 runaway cost problem。因此,FinOps 不应只是成本报表,而必须成为共同的 operating model,让每一次扩展决策都同时回答两件事:性能 SLO 是否满足,以及 是否负担得起

API-first 的“隐含假设”在 AI 时代的挑战

下图展示平台、ML 与安全团队的责任边界与责任链关系。

图 1: 组织责任边界与责任链
图 1: 组织责任边界与责任链

API-first 的直觉路径是:先跑通接口与工作流,随后再通过工程化逐步优化性能与成本。在 AI 原生基础设施中,这条路径经常失效,因为它依赖三条在 AI 时代已不再成立的隐含假设。

假设一:资源不是核心稀缺

传统软件将稀缺性押注在工程效率、吞吐、稳定性;而 AI 原生基础设施的稀缺性首先来自 GPU / 互连 / 功耗 这些资产边界。稀缺不再是“扩容慢”,而是“扩不动且贵”,并且受供应链与机房条件共同约束。

假设二:请求成本可预测

传统请求的成本分布相对稳定;AI 请求则天然长尾:agentic 任务的分支、长上下文的膨胀、工具调用的链式放大,都会让 token 与 GPU time 变成不可线性外推的随机变量。你以为在扩“QPS”,实际上在扩“尾部概率事件的总成本”。

假设三:状态是短命、可丢弃的

云原生时代强调无状态扩展,将状态外置;但在推理侧,推理状态/上下文复用 常常决定单位成本是否可控。NVIDIA 在 Rubin 的 ICMS(Inference Context Memory Storage)中将其描述为“新推理范式带来的 context storage challenge”:KV cache 需要跨会话/跨服务复用,sequence length 增长导致 KV cache 线性膨胀,迫使其持久化与共享访问,形成“新的 context tier”,并用 TPS 与能效收益证明这不是锦上添花,而是规模化的门槛。

结论
在 AI 原生基础设施中,状态与算力治理已成为“能否运行”的前置条件,而非后续优化项。

算力治理的本质:治理的对象是什么

“算力治理”常被误解为“管理 GPU”,但真正要治理的是 意图的资源后果。更准确地说,治理的是四类对象的组合效应:

Token 经济(Token Economics)

  • 每个请求/任务的 token 消耗、上下文膨胀、工具定义与中间结果带来的隐性 token 税,最终直接映射为成本与延迟。

加速器时间(Accelerator Time)

  • GPU time、显存占用、批处理策略、路由与缓存命中对有效吞吐的影响。关键不在于“有没有 GPU”,而是“单位 GPU 时间产出是否可控”。

互连与存储(Fabric & Storage)

  • 训练 all-reduce、推理 KV/cache 共享、跨服务数据移动带来的网络与存储压力。AI 的性能与成本往往被 fabric 放大,而不是被 API 放大。

组织预算与风险(Budget & Risk)

  • 多租户隔离、公平性、审计、合规与可追责。这些决定系统能否扩展到多个团队/业务线,而不仅是把 demo 扩到更多实例。

FinOps Foundation 也强调:AI/ML 的成本驱动不仅是 GPU,存储(checkpoints/embeddings/artefacts)、网络(分布式训练/跨 AZ)以及额外许可与 marketplace 费用,常常会“悄悄超过算力”。因此,治理对象必须覆盖端到端,而不是只盯推理账单。

MCP/Agent:治理缺失下的放大效应

MCP/Agent 扩大的是“能力面”,但同时会让成本曲线更陡,尤其在治理缺失时表现为指数级放大:

  • 工具越多,分支越多:计划空间变大,长尾概率上升,成本波动不可控。
  • 工具定义与中间结果占用上下文:直接消耗 context window 与 token,转化为成本与延迟。
  • 更强的工具使用能力触发更多外部 I/O:外部系统调用、网络往返、数据搬运都会进入整体成本函数。

Anthropic 在“Code execution with MCP”中明确指出:直接工具调用会因工具定义与中间结果占用 context window 而增加成本与延迟;当工具数量上升到几百上千时,会成为规模化瓶颈,因此提出用代码执行形态提升效率、减少 token 消耗。

结论
在 MCP/Agent 时代,治理不是压制创新,而是让创新在预算边界内可持续。治理缺失时,Agent 不是生产力工具,而是成本放大器。

“算力治理优先”的最小实现路径

你可以不绑定任何厂商,但必须实现一个“最小可行治理堆栈”。目标不是完美,而是让系统从第一天就具备可控的边界条件。

准入与预算(Admission + Budget)

  • 为工作负载类型(training / inference / agent tasks)设定预算与优先级。
  • 将预算、最大步数、最大 token、最大工具调用次数纳入 policy-as-intent,并在入口强制执行。
实践建议
FinOps 的核心观点是:将 FinOps 早期嵌入架构,让每次扩展同时回答“性能”与“可负担性”,否则账单只会在事故发生时才被关注。

端到端计量与归因(Metering + Attribution)

  • 至少做到一条可追溯链路:request/agent → tokens → GPU time/显存 → 网络/存储 → 成本归因(租户/项目/模型/工具)。
  • 没有归因,就没有治理;没有治理,企业内就无法规模化,因为成本与责任无法对齐,组织会在“谁消耗了预算”上内耗。

隔离与共享(Isolation + Sharing)

  • 共享 用于提高利用率;隔离 用于降低风险。两者必须同时存在,而不是二选一。
  • CNCF 的 Cloud Native AI 报告指出:GPU 虚拟化与共享(如 MIG、MPS、DRA 等)能提升利用率、降低成本,但需要谨慎编排与管理,并要求 AI 与云原生工程团队协作。
  • 治理的关键不是选择共享还是隔离,而是将其变成可执行策略:谁在什么条件下共享,谁在什么条件下隔离。

拓扑与网络作为一等公民(Topology + Fabric First)

  • AI 训练与高吞吐推理对网络特性高度敏感。
  • Cisco 的 AI-ready 基础设施设计指南与相关 CVD/Design Zone 强调:为 AI/ML 工作负载构建高性能、lossless Ethernet fabric,并通过 validated designs 交付参考架构与部署指南。
  • 这意味着拓扑不是“机房同学的事”,而是决定 JCT、尾延迟与容量模型是否成立的核心变量。

上下文/状态成为治理对象(Context as a Governed Asset)

  • 当 long-context 与 agentic 成为主流,KV cache 与 inference context 的复用将直接决定单位成本。
  • NVIDIA 的 ICMS 将其定义为“新的 context tier”,用于解决 KV cache 复用与共享访问,并强调 TPS/能效收益。
  • 在这个时代,把上下文当作临时变量,是主动放弃成本控制权。

反模式清单

以下反模式并非“工程不优雅”,而是在组织层面会触发失控,值得警惕。

API-first,把治理当后续优化

  • 结果:系统先上线,后发现单位成本与尾延迟不可控,只能通过限功能/限流进行“硬刹车”,最终把产品路线锁死。
  • 对照:FinOps 指出弹性很容易变成 runaway costs,必须将成本治理提前进入架构决策。

把 MCP/Agent 当能力加速器,不把它当成本放大器

  • 结果:工具越多越“聪明”,但 token 与外部调用成本指数上升,工程团队被迫用“更复杂的提示词与规则”去对抗系统性放大。
  • 对照:Anthropic 指出工具定义与中间结果会占用上下文、增加成本与延迟,并提出更高效的执行形态作为规模化路径。

只买 GPU,不做共享/隔离与编排

  • 结果:利用率低、争用严重、预算爆炸,组织内部互相指责“谁在抢资源、谁在烧钱”。
  • 对照:CNCF Cloud Native AI 报告强调共享/虚拟化能提升利用率,但必须配套编排与协作机制。

忽视网络与拓扑,把 AI 当普通微服务

  • 结果:训练 JCT 与推理 tail latency 被网络放大,容量规划与成本模型失效,扩容越多越不稳定。
  • 对照:Cisco 在 AI-ready 网络设计与 validated designs 中将 lossless Ethernet fabric 等要求作为 AI/ML 的关键基础。

总结

AI-native 的第一性入口是算力治理闭环:预算与准入、计量与归因、共享与隔离、拓扑与网络、上下文资产化。API / Agent / MCP 依然重要,但必须被这套闭环约束,否则系统只能在“更聪明”与“更破产”之间摇摆。

参考文献

广告
智谱 AI GLM Coding 超值订阅

Claude Code、Cline 等 20+ 大编程工具无缝支持,码力全开。

创建于 2026/01/18 更新于 2026/01/18 3102 字 阅读约 7 分钟

提交勘误/建议