云原生的声明式与多集群能力,正在成为 AI 推理基础设施的标准化底座。
AI 推理(Inference)正在成为云原生基础设施的下一个战场。随着大语言模型(LLM, Large Language Model)能力与规模的迅速增长,传统单集群推理架构已难以满足全球化、高可用与成本优化的需求。2025 年 10 月底,CNCF 宣布托管两个新项目 —— KAITO(Kubernetes AI Toolchain Operator) 与 KubeFleet,这标志着云原生社区正式进入 AI 推理基础设施标准化阶段。
本文对这两个项目进行系统性分析,并探讨其对 AI Infra 生态的战略意义。
AI 推理的复杂性:从单集群到多集群
随着大模型推理负载特征变化,企业开始采用多集群(multi-cluster)推理架构。下方总结了多集群架构带来的三大挑战:
- 部署一致性问题:不同集群间模型版本、依赖与配置漂移难以控制。
- 计算资源稀缺问题:需要智能调度可用 GPU,避免资源浪费或热点。
- 服务可靠性问题:推理端点需满足低延迟、高可用与跨地域 SLA。
KAITO 与 KubeFleet 正是为解决这些问题而生。
下图展示了 KAITO 与 KubeFleet 的架构设计。
图示说明:
- 顶层为 KubeFleet Hub Cluster(控制多集群放置逻辑)。
- 下层为三个地域集群(US / EU / APAC),每个集群有 Active Nodes 与 Spare GPU。
- Inference Gateway 统一暴露全局推理入口。
- 箭头方向体现“放置与汇聚”的控制流。
KAITO:AI 推理的声明式编排层
KAITO(Kubernetes AI Toolchain Operator)由微软团队发起,是一个声明式的 AI 工作负载管理框架。它通过 CRD(Custom Resource Definition)抽象模型生命周期,使 LLM 推理像部署微服务一样可配置、可复用。
项目地址: github.com/kaito-project/kaito
下表总结了 KAITO 的核心特性与设计理念:
| 特性/理念 | 说明 |
|---|---|
| 工作区模型管理 | 支持预训练模型与自带模型(BYO Model) |
| 自动资源分配 | 根据模型规模与 GPU 可用性自动申请节点与卷 |
| 多节点优化 | 支持分布式存储与计算调度 |
| 内置可观测性 | 直接输出推理延迟、吞吐与错误指标 |
| 声明式部署 | 模型视为 Kubernetes 原生资源对象,支持 YAML 配置与 GitOps |
例如,推理管线可声明为 YAML:
apiVersion: aitoolchain.io/v1
kind: ModelDeployment
metadata:
name: qwen2-7b
spec:
model: qwen2-7b
engine: vllm
replicas: 3
resources:
gpu: 2
这使得 AI 平台具备了与应用服务相同的部署一致性与 GitOps 能力。
KubeFleet:多集群智能调度与放置
KubeFleet 由 Azure Kubernetes Service(AKS)团队主导,是一个跨集群工作负载编排器(Multi-Cluster Orchestrator),专注于智能放置推理工作负载。
项目地址: github.com/kubefleet-dev/kubefleet
下表总结了 KubeFleet 的功能亮点与使用场景:
| 功能/场景 | 说明 |
|---|---|
| 集群能力发现 | 评估每个集群的 GPU 类型、数量、成本与地理位置 |
| 智能放置决策 | 根据策略在最合适的集群部署推理任务 |
| 阶段化更新 | 支持跨测试、预发、生产集群的灰度发布 |
| 一致性控制 | 保证不同集群的部署模板统一 |
| 全球推理服务 | 支持 Geo-distributed Inference |
| GPU 异构资源池调度 | 支持企业级多环境一体化发布 |
KAITO × KubeFleet:AI 推理基础设施的分层设计
下表总结了 KAITO 与 KubeFleet 在 AI 推理基础设施中的分层定位:
| 层级 | 职责 | 代表项目 |
|---|---|---|
| Global Placement 层 | 选择在哪个集群部署 | KubeFleet |
| Cluster Orchestration 层 | 定义如何部署模型 | KAITO |
| Runtime 层 | 执行推理引擎 | vLLM / TGI / SGLang / Triton |
| Infra 层 | 提供算力与调度基础 | Kubernetes / GPU / CNI / Storage |
这套分层设计体现了 CNCF 的一贯思路:以声明式与插件化的方式抽象复杂基础设施,降低 AI 推理平台的进入门槛。
生态意义与趋势判断
AI Infra 正在被云原生化,CNCF 正在吸纳 AI 工作负载进入其治理体系,这将推动 AI 平台逐步形成与云原生一致的标准栈。多集群调度成为新战场,GPU 异构性与跨地域合规推动企业采用多集群推理架构。KubeFleet 可能成为 Karmada / Clusternet 之后的“AI Federation”代表。声明式 AI 运维将替代手动脚本式部署,KAITO 的 CRD 模型可能成为未来 ML Serving 的标准语义层。微软与 CNCF 的战略协作增强,这两个项目均来自 Azure 团队,意味着云厂商正以开源基础设施标准方式参与 AI 生态竞争。
与现有项目的对比关系
下表对比了 KAITO、KubeFleet 与主流 AI 推理基础设施项目的功能:
| 功能 | KAITO | KubeFleet | Kubeflow | KServe | HAMI |
|---|---|---|---|---|---|
| 模型声明式部署 | ✅ | – | ✅ | ✅ | – |
| 多集群调度 | – | ✅ | – | 部分支持 | ✅ |
| GPU 异构感知 | ✅ | ✅ | 部分 | ✅ | ✅ |
| Telemetry / Metrics | ✅ | ✅ | ✅ | ✅ | ✅ |
| 云厂商支持 | Microsoft / CNCF | Microsoft / CNCF | IBM / RedHat | AWS |
总结
KAITO 与 KubeFleet 的出现,是 AI Infra 演进的重要分水岭。它们代表了云原生社区对 AI 推理的正式介入,也揭示了未来的趋势:
- AI 推理的复杂性,将被 Kubernetes 的声明式与多集群体系所吸收。
- 这两个项目值得被纳入任何研究 AI 原生基础设施的参考架构中。
- 对于开发者与平台团队而言,它们不仅是新工具,更是 AI 基础设施标准化的信号。