KAITO 与 KubeFleet：CNCF 正在重塑 AI 推理基础设施

云原生的声明式与多集群能力，正在成为 AI 推理基础设施的标准化底座。

AI 推理（Inference）正在成为云原生基础设施的下一个战场。随着大语言模型（LLM, Large Language Model）能力与规模的迅速增长，传统单集群推理架构已难以满足全球化、高可用与成本优化的需求。2025 年 10 月底，CNCF 宣布托管两个新项目 —— KAITO（Kubernetes AI Toolchain Operator） 与 KubeFleet，这标志着云原生社区正式进入 AI 推理基础设施标准化阶段。

本文对这两个项目进行系统性分析，并探讨其对 AI Infra 生态的战略意义。

AI 推理的复杂性：从单集群到多集群

随着大模型推理负载特征变化，企业开始采用多集群（multi-cluster）推理架构。下方总结了多集群架构带来的三大挑战：

部署一致性问题：不同集群间模型版本、依赖与配置漂移难以控制。
计算资源稀缺问题：需要智能调度可用 GPU，避免资源浪费或热点。
服务可靠性问题：推理端点需满足低延迟、高可用与跨地域 SLA。

KAITO 与 KubeFleet 正是为解决这些问题而生。

下图展示了 KAITO 与 KubeFleet 的架构设计。

图示说明：

顶层为 KubeFleet Hub Cluster（控制多集群放置逻辑）。
下层为三个地域集群（US / EU / APAC），每个集群有 Active Nodes 与 Spare GPU。
Inference Gateway 统一暴露全局推理入口。
箭头方向体现“放置与汇聚”的控制流。

KAITO：AI 推理的声明式编排层

KAITO（Kubernetes AI Toolchain Operator）由微软团队发起，是一个声明式的 AI 工作负载管理框架。它通过 CRD（Custom Resource Definition）抽象模型生命周期，使 LLM 推理像部署微服务一样可配置、可复用。

项目地址： github.com/kaito-project/kaito

下表总结了 KAITO 的核心特性与设计理念：

特性/理念	说明
工作区模型管理	支持预训练模型与自带模型（BYO Model）
自动资源分配	根据模型规模与 GPU 可用性自动申请节点与卷
多节点优化	支持分布式存储与计算调度
内置可观测性	直接输出推理延迟、吞吐与错误指标
声明式部署	模型视为 Kubernetes 原生资源对象，支持 YAML 配置与 GitOps

表 1: KAITO 核心特性与设计理念

例如，推理管线可声明为 YAML：

apiVersion: aitoolchain.io/v1
kind: ModelDeployment
metadata:
  name: qwen2-7b
spec:
  model: qwen2-7b
  engine: vllm
  replicas: 3
  resources:
    gpu: 2

这使得 AI 平台具备了与应用服务相同的部署一致性与 GitOps 能力。

KubeFleet：多集群智能调度与放置

KubeFleet 由 Azure Kubernetes Service（AKS）团队主导，是一个跨集群工作负载编排器（Multi-Cluster Orchestrator），专注于智能放置推理工作负载。

项目地址： github.com/kubefleet-dev/kubefleet

下表总结了 KubeFleet 的功能亮点与使用场景：

功能/场景	说明
集群能力发现	评估每个集群的 GPU 类型、数量、成本与地理位置
智能放置决策	根据策略在最合适的集群部署推理任务
阶段化更新	支持跨测试、预发、生产集群的灰度发布
一致性控制	保证不同集群的部署模板统一
全球推理服务	支持 Geo-distributed Inference
GPU 异构资源池调度	支持企业级多环境一体化发布

表 2: KubeFleet 功能亮点与使用场景

KAITO × KubeFleet：AI 推理基础设施的分层设计

下表总结了 KAITO 与 KubeFleet 在 AI 推理基础设施中的分层定位：

层级	职责	代表项目
Global Placement 层	选择在哪个集群部署	KubeFleet
Cluster Orchestration 层	定义如何部署模型	KAITO
Runtime 层	执行推理引擎	vLLM / TGI / SGLang / Triton
Infra 层	提供算力与调度基础	Kubernetes / GPU / CNI / Storage

表 3: AI 推理基础设施分层设计

这套分层设计体现了 CNCF 的一贯思路：以声明式与插件化的方式抽象复杂基础设施，降低 AI 推理平台的进入门槛。

生态意义与趋势判断

AI Infra 正在被云原生化，CNCF 正在吸纳 AI 工作负载进入其治理体系，这将推动 AI 平台逐步形成与云原生一致的标准栈。多集群调度成为新战场，GPU 异构性与跨地域合规推动企业采用多集群推理架构。KubeFleet 可能成为 Karmada / Clusternet 之后的“AI Federation”代表。声明式 AI 运维将替代手动脚本式部署，KAITO 的 CRD 模型可能成为未来 ML Serving 的标准语义层。微软与 CNCF 的战略协作增强，这两个项目均来自 Azure 团队，意味着云厂商正以开源基础设施标准方式参与 AI 生态竞争。

与现有项目的对比关系

下表对比了 KAITO、KubeFleet 与主流 AI 推理基础设施项目的功能：

功能	KAITO	KubeFleet	Kubeflow	KServe	HAMI
模型声明式部署	✅	–	✅	✅	–
多集群调度	–	✅	–	部分支持	✅
GPU 异构感知	✅	✅	部分	✅	✅
Telemetry / Metrics	✅	✅	✅	✅	✅
云厂商支持	Microsoft / CNCF	Microsoft / CNCF	Google	IBM / RedHat	AWS

表 4: AI 推理基础设施项目功能对比

总结

KAITO 与 KubeFleet 的出现，是 AI Infra 演进的重要分水岭。它们代表了云原生社区对 AI 推理的正式介入，也揭示了未来的趋势：

AI 推理的复杂性，将被 Kubernetes 的声明式与多集群体系所吸收。
这两个项目值得被纳入任何研究 AI 原生基础设施的参考架构中。
对于开发者与平台团队而言，它们不仅是新工具，更是 AI 基础设施标准化的信号。

KAITO 与 KubeFleet：CNCF 正在重塑 AI 推理基础设施

AI 推理的复杂性：从单集群到多集群

KAITO：AI 推理的声明式编排层

KubeFleet：多集群智能调度与放置

KAITO × KubeFleet：AI 推理基础设施的分层设计

生态意义与趋势判断

与现有项目的对比关系

总结

参考文献

微信分享

KubeCon EU 2024 巴黎见闻与回顾

AI 推理与 Kubernetes 的天然契合

深入解读 CNCF 推出的云原生 AI 白皮书