Kubernetes 正在成为 AI 时代的 GPU Control Plane：从 HAMi v2.9 看下一代 AI …

最近在关注国产 GPU 调度和 Kubernetes AI 资源模型的进展，正好 HAMi 发布了 v2.9，就借着这个版本聊聊我对 AI Infra 控制面演化的几个观察。

为什么现在聊这个话题

2025 年初 DeepSeek R1 发布的时候，很多人关注的是“只花了 560 万美元就训出了能打 OpenAI o1 的模型”。但我当时想的另一件事是：推理成本暴跌之后，GPU 利用率的问题会立刻暴露出来。

果然模型越来越好用，推理需求爆炸式增长，“一张卡跑一个模型”变得越来越奢侈。与此同时，NVIDIA H200 的出口闹剧也直接加速了国产算力的替代进程。先禁售，2025 年底特朗普又开绿灯加了 25% 关税，结果 2026 年 1 月中国海关实际放行数为零。政策层面明确要求 2026 年数据中心国产芯片使用率超过 40%。

现实就是这么骨感：你不但 GPU 不够，而且你得学会同时用好 NVIDIA、昇腾、寒武纪、海光这些完全不一样的东西。

所以 HAMi v2.9 这个版本，我觉得比表面看到的要重要一些。

GPU 不再是一张卡的事

Kubernetes 管理 GPU 的方式一直很粗糙：

resources:
  limits:
    nvidia.com/gpu: 1

这在 2019 年够用，毕竟当时的问题就是一个 Pod 要不要一张 GPU，是或否的问题。

但现在不行了。一个推理服务可能只需要 4GB 显存，一批小模型可以共享一张卡，训练任务要关心 GPU 拓扑和跨卡互联带宽，多租户还要隔离故障域。把 GPU 继续当整数资源管，就像用算盘做统计分析，不是不能用，是思维模型跟不上现实了。

HAMi v2.9 里最值得注意的特性是昇腾 910C 的 HAMi-core 模式。以前昇腾卡共享靠 SR-IOV 硬件虚拟化，粒度粗、不灵活。HAMi-core 换了个思路：用 LD_PRELOAD 在用户态拦截 ACL 调用，实现 MB 级显存隔离和百分比级算力限流。

说白了就是：不靠硬件切，靠软件管。

这跟当年 SDN 把网络控制面从硬件设备里抽出来的路径很像，GPU 切分正在从硬件能力变成集群控制面的能力。考虑到华为昇腾 910C 去年出货了 81 万张、占据国产芯片近半壁江山，这个能力的实际影响面不小。

DRA：Kubernetes 终于有了像样的设备资源模型

Kubernetes v1.34（2025 年 9 月）正式把 DRA（Dynamic Resource Allocation）推向 GA，Red Hat OpenShift 4.21 紧随其后也 GA 了。这不是小事。

Device Plugin 当年解决了“怎么把 GPU 接进 K8s”的问题，但没解决“怎么表达复杂 AI 资源需求”的问题。Device Plugin 只知道节点上有几块卡，不知道你要多少显存、什么拓扑、哪种隔离级别。

DRA 通过 ResourceClaim 和 DeviceClass 把设备资源的声明、分配和管理标准化了。HAMi-DRA 的做法比较务实：没有要求用户改用法，而是通过 Mutating Webhook 把现有 Device Plugin 风格的声明自动转换成 DRA 模型。旧系统不用改，新能力照样用。

我把它类比成当年 CSI 对存储的意义：不是消灭厂商差异，而是让 Kubernetes 能用统一方式消费不同厂商的存储能力。DRA 对 AI 加速器也类似，NVIDIA、昇腾、AMD、Vastai 这些卡永远不会完全一样，但调度层面应该有统一语言。

一条完整的控制面路径

如果跳出版本特性，把 HAMi-core、DRA、CDI、调度器放在一起看，它们其实对应 GPU 资源管理链路的不同层次：

HAMi-core：设备内部怎么切、怎么隔离
DRA：资源怎么声明、分配、绑定
CDI：设备怎么标准化注入容器运行时
调度器/Webhook：怎么调度、准入、观测

把这些层次串起来，从上到下就是 Kubernetes 作为 GPU Control Plane 的完整链路：

图 2: Kubernetes 作为 AI 工作负载的 GPU 控制面

这是一条完整的控制面路径。v2.9 里的 Volcano vGPU 升级到 v0.19 并增强 CDI 支持，看似是设备注入方式的小改进，实际上补齐了这条链路里的关键一环。

异构才是国内 AI Infra 的主战场

国内 AI 集群的现实是：你不可能只围绕一种 GPU 来建设基础设施。

企业环境里经常同时存在 NVIDIA、昇腾、燧原、寒武纪、海光、沐曦、昆仑芯、瀚博等设备，每种卡的驱动、运行时、虚拟化能力、监控方式都不一样。HAMi v2.9 新增瀚博半导体（Vastai）支持，累计覆盖十余种异构算力设备。训练和推理混部、在线和离线混部、国产和海外 GPU 混部、多团队多租户共用一个资源池，这种场景下，统一调度层比单卡性能重要得多。

几个判断

GPU 共享会从“省钱手段”变成默认需求。 推理场景爆发之后，不是所有 workload 都值得独占整张卡。整卡独占会越来越像一种奢侈的资源使用方式。

DRA 是方向，但迁移是渐进的。 Device Plugin 生态太大了，不会一夜消失。HAMi-DRA 的兼容层设计说明项目方也明白这一点。

异构调度会成为 AI Infra 的核心问题。 谁能把不同厂商设备抽象成统一调度语义，谁就占据控制面的关键位置。

Kubernetes 会被 AI workload 反向改造。 从调度语义到资源模型，AI 需要的表达能力远超传统 Web 服务。DRA、CDI、topology-aware scheduling 这些方向不是孤立演进，而是共同说明一件事：Kubernetes 正在从容器编排系统，向 AI 计算控制平面演化。

写在最后

HAMi v2.9 的意义不在于它支持了某个设备或某种切分方式，而在于它让一件事变得更清晰：下一代 AI 基础设施的竞争，不只是模型框架之争，也不只是 GPU 数量之争，而是控制面之争。

GPU 正在从节点上的外部设备，变成 Kubernetes 控制面里的原生资源。谁能定义 AI 时代的资源模型，谁就能定义 AI Infra 的长期边界。

Kubernetes 正在成为 AI 时代的 GPU Control Plane：从 HAMi v2.9 看下一代 AI Infra 的演化

为什么现在聊这个话题

GPU 不再是一张卡的事

DRA：Kubernetes 终于有了像样的设备资源模型

一条完整的控制面路径

异构才是国内 AI Infra 的主战场

几个判断

写在最后

宋净超（Jimmy Song）

技术专栏

技术专栏

更多内容

更多内容

AI

AI

云原生

云原生

更多

更多

精选资源

精选资源

交流与反馈

交流与反馈

更多

更多

快速链接

快速链接

微信公众号

微信公众号

微信联系

微信联系

Kubernetes 正在成为 AI 时代的 GPU Control Plane：从 HAMi v2.9 看下一代 AI Infra 的演化

为什么现在聊这个话题

GPU 不再是一张卡的事

DRA：Kubernetes 终于有了像样的设备资源模型

一条完整的控制面路径

异构才是国内 AI Infra 的主战场

几个判断

写在最后

宋净超（Jimmy Song）

微信分享

KubeCon EU 2026 第一日观察

当 GPU 走向开放调度：HAMi 2025 年的结构性转变

AI 2026：基础设施、Agent 与下一次云原生变革