Kubernetes 正在成为 AI 时代的 GPU Control Plane:从 HAMi v2.9 看下一代 AI Infra 的演化

观察 AI 基础设施控制面演化的几个趋势,聚焦 HAMi v2.9、GPU 调度和 Kubernetes 资源模型。

最近在关注国产 GPU 调度和 Kubernetes AI 资源模型的进展,正好 HAMi 发布了 v2.9,就借着这个版本聊聊我对 AI Infra 控制面演化的几个观察。

图 1: Kubernetes 正在成为 AI 时代的 GPU 控制面
图 1: Kubernetes 正在成为 AI 时代的 GPU 控制面

为什么现在聊这个话题

2025 年初 DeepSeek R1 发布的时候,很多人关注的是“只花了 560 万美元就训出了能打 OpenAI o1 的模型”。但我当时想的另一件事是:推理成本暴跌之后,GPU 利用率的问题会立刻暴露出来。

果然模型越来越好用,推理需求爆炸式增长,“一张卡跑一个模型”变得越来越奢侈。与此同时,NVIDIA H200 的出口闹剧也直接加速了国产算力的替代进程。先禁售,2025 年底特朗普又开绿灯加了 25% 关税,结果 2026 年 1 月中国海关实际放行数为零。政策层面明确要求 2026 年数据中心国产芯片使用率超过 40%。

现实就是这么骨感:你不但 GPU 不够,而且你得学会同时用好 NVIDIA、昇腾、寒武纪、海光这些完全不一样的东西。

所以 HAMi v2.9 这个版本,我觉得比表面看到的要重要一些。

GPU 不再是一张卡的事

Kubernetes 管理 GPU 的方式一直很粗糙:

resources:
  limits:
    nvidia.com/gpu: 1

这在 2019 年够用,毕竟当时的问题就是一个 Pod 要不要一张 GPU,是或否的问题。

但现在不行了。一个推理服务可能只需要 4GB 显存,一批小模型可以共享一张卡,训练任务要关心 GPU 拓扑和跨卡互联带宽,多租户还要隔离故障域。把 GPU 继续当整数资源管,就像用算盘做统计分析,不是不能用,是思维模型跟不上现实了。

HAMi v2.9 里最值得注意的特性是昇腾 910C 的 HAMi-core 模式。以前昇腾卡共享靠 SR-IOV 硬件虚拟化,粒度粗、不灵活。HAMi-core 换了个思路:用 LD_PRELOAD 在用户态拦截 ACL 调用,实现 MB 级显存隔离和百分比级算力限流。

说白了就是:不靠硬件切,靠软件管。

这跟当年 SDN 把网络控制面从硬件设备里抽出来的路径很像,GPU 切分正在从硬件能力变成集群控制面的能力。考虑到华为昇腾 910C 去年出货了 81 万张、占据国产芯片近半壁江山,这个能力的实际影响面不小。

DRA:Kubernetes 终于有了像样的设备资源模型

Kubernetes v1.34(2025 年 9 月)正式把 DRA(Dynamic Resource Allocation)推向 GA,Red Hat OpenShift 4.21 紧随其后也 GA 了。这不是小事。

Device Plugin 当年解决了“怎么把 GPU 接进 K8s”的问题,但没解决“怎么表达复杂 AI 资源需求”的问题。Device Plugin 只知道节点上有几块卡,不知道你要多少显存、什么拓扑、哪种隔离级别。

DRA 通过 ResourceClaimDeviceClass 把设备资源的声明、分配和管理标准化了。HAMi-DRA 的做法比较务实:没有要求用户改用法,而是通过 Mutating Webhook 把现有 Device Plugin 风格的声明自动转换成 DRA 模型。旧系统不用改,新能力照样用。

我把它类比成当年 CSI 对存储的意义:不是消灭厂商差异,而是让 Kubernetes 能用统一方式消费不同厂商的存储能力。DRA 对 AI 加速器也类似,NVIDIA、昇腾、AMD、Vastai 这些卡永远不会完全一样,但调度层面应该有统一语言。

一条完整的控制面路径

如果跳出版本特性,把 HAMi-core、DRA、CDI、调度器放在一起看,它们其实对应 GPU 资源管理链路的不同层次:

  • HAMi-core:设备内部怎么切、怎么隔离
  • DRA:资源怎么声明、分配、绑定
  • CDI:设备怎么标准化注入容器运行时
  • 调度器/Webhook:怎么调度、准入、观测

把这些层次串起来,从上到下就是 Kubernetes 作为 GPU Control Plane 的完整链路:

图 2: Kubernetes 作为 AI 工作负载的 GPU 控制面
图 2: Kubernetes 作为 AI 工作负载的 GPU 控制面

这是一条完整的控制面路径。v2.9 里的 Volcano vGPU 升级到 v0.19 并增强 CDI 支持,看似是设备注入方式的小改进,实际上补齐了这条链路里的关键一环。

异构才是国内 AI Infra 的主战场

国内 AI 集群的现实是:你不可能只围绕一种 GPU 来建设基础设施。

企业环境里经常同时存在 NVIDIA、昇腾、燧原、寒武纪、海光、沐曦、昆仑芯、瀚博等设备,每种卡的驱动、运行时、虚拟化能力、监控方式都不一样。HAMi v2.9 新增瀚博半导体(Vastai)支持,累计覆盖十余种异构算力设备。训练和推理混部、在线和离线混部、国产和海外 GPU 混部、多团队多租户共用一个资源池,这种场景下,统一调度层比单卡性能重要得多。

几个判断

GPU 共享会从“省钱手段”变成默认需求。 推理场景爆发之后,不是所有 workload 都值得独占整张卡。整卡独占会越来越像一种奢侈的资源使用方式。

DRA 是方向,但迁移是渐进的。 Device Plugin 生态太大了,不会一夜消失。HAMi-DRA 的兼容层设计说明项目方也明白这一点。

异构调度会成为 AI Infra 的核心问题。 谁能把不同厂商设备抽象成统一调度语义,谁就占据控制面的关键位置。

Kubernetes 会被 AI workload 反向改造。 从调度语义到资源模型,AI 需要的表达能力远超传统 Web 服务。DRA、CDI、topology-aware scheduling 这些方向不是孤立演进,而是共同说明一件事:Kubernetes 正在从容器编排系统,向 AI 计算控制平面演化。

写在最后

HAMi v2.9 的意义不在于它支持了某个设备或某种切分方式,而在于它让一件事变得更清晰:下一代 AI 基础设施的竞争,不只是模型框架之争,也不只是 GPU 数量之争,而是控制面之争

GPU 正在从节点上的外部设备,变成 Kubernetes 控制面里的原生资源。谁能定义 AI 时代的资源模型,谁就能定义 AI Infra 的长期边界。

宋净超(Jimmy Song)

宋净超(Jimmy Song)

专注于 AI 原生基础设施与云原生应用架构的研究与开源实践。

文章导航