第十届中国开源年会,12月6-7日,北京, 查看详情

什么样的 AI 平台算得上 Kubernetes 原生?

本文解读 CNCF 的 Kubernetes AI Conformance 项目,深入分析一个 AI 平台要达到 Kubernetes 原生标准需满足的架构、调度、存储、网络与互操作性要求。

云原生 AI 平台的标准化,是推动 AI 基础设施生态进化的关键一步,也是行业迈向互信与协作的里程碑。

近年来,云原生生态正逐步从通用计算扩展到 AI 计算领域。CNCF(Cloud Native Computing Foundation,云原生计算基金会)正在推动一项新的认证计划—— Kubernetes AI Conformance (Kubernetes AI 兼容性认证),旨在为 AI 平台建立一套与 Kubernetes 兼容、可互操作的技术标准。

这一认证计划试图回答一个核心问题:

“一个 AI 平台,怎样才算真正的 Kubernetes 原生?”

为什么需要 AI Conformance

当前,许多 AI 平台都宣称“运行在 Kubernetes 上”,但实际落地时表现差异明显。下面列举几种常见情况:

  • 有的平台仅仅是在 Kubernetes 上运行容器,未与控制面深度集成。
  • 有的平台则真正与 Kubernetes 控制面、调度、观测系统实现了深度融合。
  • 还有不少厂商自建控制器、调度器、存储接口,导致跨环境迁移和互操作性存在障碍。

CNCF 推出 AI Conformance 的核心目的,是通过统一标准,让 AI 平台在不同云、不同集群中都能保持一致行为,成为生态的共同语言,类似于“Certified Kubernetes”的作用。

Kubernetes 原生 AI 平台的关键标准

Kubernetes 原生 AI 平台需满足以下几个关键标准:

架构原生:一切皆为 Kubernetes 对象

在 AI 训练、推理、批处理等场景下,所有任务都应以 PodJobCRD(Custom Resource Definition,自定义资源定义)的方式声明。调度、扩缩、生命周期管理应交由 Kubernetes 控制面执行,而非平台自建。

例如,Kubeflow Training Operator、RayCluster CRD、vLLM Operator 都采用了这种原生对象声明方式。

调度原生:算力资源统一调度

AI 平台需要通过 Kubernetes 的 Device Plugin(设备插件)与 Scheduler(调度器)协同感知 GPU、NPU 等异构算力资源,并支持 resources.requests/limits 的资源管理。任务调度行为应具备可观测性和可追踪性,避免黑箱运行。

存储原生:声明式数据与模型访问

数据和模型的访问不应依赖宿主路径,而应通过 PVC(PersistentVolumeClaim,持久卷声明)、CSI(Container Storage Interface,容器存储接口)、S3/NAS 等标准接口挂载。凭据、参数等敏感信息由 SecretsConfigMap 注入。整个 pipeline 能够被 GitOps / CI/CD 流程重放,确保可追溯性和自动化。

网络与服务原生:兼容 Mesh 与 Gateway

AI 推理服务应以标准 Service、Ingress、Gateway API 暴露,支持多集群服务发现与路由策略,并能与 Istio、Envoy、Linkerd 等服务网格无缝对接。

此外,平台需输出标准化监控指标(如 Prometheus)、日志(如 FluentBit)、追踪信息(如 OpenTelemetry),以便于统一观测和运维。

可移植与可互操作

真正的 Kubernetes 原生 AI 平台应能在不同环境下保持一致行为,包括:

  • 公有云(如 EKS、GKE、ACK)
  • 私有云(如 OpenShift、KubeSphere)
  • 裸机集群

同时,平台应能直接集成 Kubeflow、Ray、KServe、Triton 等主流生态组件,实现高度互操作性。

CNCF 的目标:从“运行在 Kubernetes 上”到“生长于 Kubernetes 中”

CNCF 希望通过 AI Conformance 认证机制,像过去的 Certified Kubernetes 一样,推动整个 AI 基础设施生态进入标准化阶段。

未来,行业可能会看到:

  • Certified AI Platform 徽标,成为平台互信凭证。
  • 自动化校验 bot(Verify Conformance Bot),提升测试效率。
  • 多版本测试套件(如 v1.33、v1.34 等),保障兼容性。

这些举措将成为云厂商、AI 平台、AI Infra 开源项目的重要技术门槛和生态互信基础。

总结

AI 时代,标准化是生态持续演化的基础。AI 平台要想在云原生生态中长期发展,不仅要“跑在 Kubernetes 上”,更要“生长在 Kubernetes 中”。

真正的 Kubernetes 原生 AI 平台 应具备:

控制面兼容、数据面透明、扩展面声明式、可移植、可观测、可重放。

这正是 AI 与云原生交汇的关键,也是下一阶段 AI 基础设施的根基。

文章导航

评论区