《智能体设计模式》中文版已发布, 点击阅读

KAITO 与 KubeFleet:CNCF 正在重塑 AI 推理基础设施

Learn how KServe, vLLM, llm-d, and WG Serving enable efficient, scalable, and standardized cloud native LLM inference for high-performance AI deployments.

云原生的声明式与多集群能力,正在成为 AI 推理基础设施的标准化底座。

AI 推理(Inference)正在成为云原生基础设施的下一个战场。随着大语言模型(LLM, Large Language Model)能力与规模的迅速增长,传统单集群推理架构已难以满足全球化、高可用与成本优化的需求。2025 年 10 月底,CNCF 宣布托管两个新项目 —— KAITO(Kubernetes AI Toolchain Operator)KubeFleet,这标志着云原生社区正式进入 AI 推理基础设施标准化阶段。

本文对这两个项目进行系统性分析,并探讨其对 AI Infra 生态的战略意义。

AI 推理的复杂性:从单集群到多集群

随着大模型推理负载特征变化,企业开始采用多集群(multi-cluster)推理架构。下方总结了多集群架构带来的三大挑战:

  • 部署一致性问题:不同集群间模型版本、依赖与配置漂移难以控制。
  • 计算资源稀缺问题:需要智能调度可用 GPU,避免资源浪费或热点。
  • 服务可靠性问题:推理端点需满足低延迟、高可用与跨地域 SLA。

KAITO 与 KubeFleet 正是为解决这些问题而生。

下图展示了 KAITO 与 KubeFleet 的架构设计。

图 1: KAITO 与 KubeFleet 架构设计
图 1: KAITO 与 KubeFleet 架构设计

图示说明:

  • 顶层为 KubeFleet Hub Cluster(控制多集群放置逻辑)。
  • 下层为三个地域集群(US / EU / APAC),每个集群有 Active Nodes 与 Spare GPU。
  • Inference Gateway 统一暴露全局推理入口。
  • 箭头方向体现“放置与汇聚”的控制流。

KAITO:AI 推理的声明式编排层

KAITO(Kubernetes AI Toolchain Operator)由微软团队发起,是一个声明式的 AI 工作负载管理框架。它通过 CRD(Custom Resource Definition)抽象模型生命周期,使 LLM 推理像部署微服务一样可配置、可复用。

项目地址: github.com/kaito-project/kaito

下表总结了 KAITO 的核心特性与设计理念:

特性/理念说明
工作区模型管理支持预训练模型与自带模型(BYO Model)
自动资源分配根据模型规模与 GPU 可用性自动申请节点与卷
多节点优化支持分布式存储与计算调度
内置可观测性直接输出推理延迟、吞吐与错误指标
声明式部署模型视为 Kubernetes 原生资源对象,支持 YAML 配置与 GitOps
表 1: KAITO 核心特性与设计理念

例如,推理管线可声明为 YAML:

apiVersion: aitoolchain.io/v1
kind: ModelDeployment
metadata:
  name: qwen2-7b
spec:
  model: qwen2-7b
  engine: vllm
  replicas: 3
  resources:
    gpu: 2

这使得 AI 平台具备了与应用服务相同的部署一致性与 GitOps 能力。

KubeFleet:多集群智能调度与放置

KubeFleet 由 Azure Kubernetes Service(AKS)团队主导,是一个跨集群工作负载编排器(Multi-Cluster Orchestrator),专注于智能放置推理工作负载。

项目地址: github.com/kubefleet-dev/kubefleet

下表总结了 KubeFleet 的功能亮点与使用场景:

功能/场景说明
集群能力发现评估每个集群的 GPU 类型、数量、成本与地理位置
智能放置决策根据策略在最合适的集群部署推理任务
阶段化更新支持跨测试、预发、生产集群的灰度发布
一致性控制保证不同集群的部署模板统一
全球推理服务支持 Geo-distributed Inference
GPU 异构资源池调度支持企业级多环境一体化发布
表 2: KubeFleet 功能亮点与使用场景

KAITO × KubeFleet:AI 推理基础设施的分层设计

下表总结了 KAITO 与 KubeFleet 在 AI 推理基础设施中的分层定位:

层级职责代表项目
Global Placement 层选择在哪个集群部署KubeFleet
Cluster Orchestration 层定义如何部署模型KAITO
Runtime 层执行推理引擎vLLM / TGI / SGLang / Triton
Infra 层提供算力与调度基础Kubernetes / GPU / CNI / Storage
表 3: AI 推理基础设施分层设计

这套分层设计体现了 CNCF 的一贯思路:以声明式与插件化的方式抽象复杂基础设施,降低 AI 推理平台的进入门槛。

生态意义与趋势判断

AI Infra 正在被云原生化,CNCF 正在吸纳 AI 工作负载进入其治理体系,这将推动 AI 平台逐步形成与云原生一致的标准栈。多集群调度成为新战场,GPU 异构性与跨地域合规推动企业采用多集群推理架构。KubeFleet 可能成为 Karmada / Clusternet 之后的“AI Federation”代表。声明式 AI 运维将替代手动脚本式部署,KAITO 的 CRD 模型可能成为未来 ML Serving 的标准语义层。微软与 CNCF 的战略协作增强,这两个项目均来自 Azure 团队,意味着云厂商正以开源基础设施标准方式参与 AI 生态竞争。

与现有项目的对比关系

下表对比了 KAITO、KubeFleet 与主流 AI 推理基础设施项目的功能:

功能KAITOKubeFleetKubeflowKServeHAMI
模型声明式部署
多集群调度部分支持
GPU 异构感知部分
Telemetry / Metrics
云厂商支持Microsoft / CNCFMicrosoft / CNCFGoogleIBM / RedHatAWS
表 4: AI 推理基础设施项目功能对比

总结

KAITO 与 KubeFleet 的出现,是 AI Infra 演进的重要分水岭。它们代表了云原生社区对 AI 推理的正式介入,也揭示了未来的趋势:

  • AI 推理的复杂性,将被 Kubernetes 的声明式与多集群体系所吸收。
  • 这两个项目值得被纳入任何研究 AI 原生基础设施的参考架构中。
  • 对于开发者与平台团队而言,它们不仅是新工具,更是 AI 基础设施标准化的信号。

参考文献

文章导航

评论区