当 GPU 走向开放调度：HAMi 2025 年的结构性转变

GPU 调度的未来，不在于谁的实现更“黑盒”，而在于谁能把资源契约标准化到可治理。

引言

你是否想过：为什么 GPU 这么贵，但整体利用率却经常只有 10%–20%？

这不是一个"优化算法"能解决的问题，而是一个结构性问题——GPU 调度正在经历一场从"私有实现"到"开放调度"的转变，类似当年网络走向 CNI、存储走向 CSI 的标准化路径。

在 HAMi 2025 年度回顾中提到：“2025 的 HAMi 已经不再只是一个 GPU 共享工具箱，而是一个更结构性的信号：GPU 正在走向开放调度。”

2025 年，这个转变的信号已经清晰可见：Kubernetes DRA（Dynamic Resource Allocation）进入 GA 并默认启用，NVIDIA GPU Operator 开始默认使用 CDI（Container Device Interface）开放规范，而 HAMi 在 CNCF 的生产级案例正在把"GPU 共享"从实验能力推向运营能力。

本文将从 AI Native Infrastructure 的视角，深入解析这场结构性转变的驱动力、证据链以及对「Dynamia 密瓜智能」和整个行业的战略意义。

为什么“开放调度”很重要

在多云/混合云环境下，GPU 型号多样性会显著放大运维成本。以某大型互联网公司为例，其平台覆盖 H200/H100/A100/V100/4090 等多型号 GPU，跨 5 个集群。如果只能“整卡分配”，资源错配几乎不可避免。

“开放调度”不是一句口号，而是一组正在被主流栈固化的工程契约。

资源表达的标准化

过去，GPU 作为扩展资源（extended resources），调度器无法识别其显存、算力或设备类型等属性。

现在，Kubernetes DRA 通过 DeviceClass、ResourceClaim、ResourceSlice 等对象，让驱动和集群管理员可以定义设备类别与选择条件（支持 CEL 选择器）。Kubernetes 在调度时完成“匹配设备 → 绑定声明 → 把 Pod 放到可访问节点”的完整流程。

更重要的是，Kubernetes 1.34 明确承诺：resource.k8s.io 组的核心 API 进入 GA，DRA 变得稳定且默认启用，后续不会再有破坏性变更。这意味着生态可以以“标准 API”为锚点开始规模化投资。

设备注入的标准化

过去，设备注入容器依赖 vendor-specific 的 hooks 和 runtime class 模式。

现在，CDI 将设备注入语义抽象成开放规范。NVIDIA Container Toolkit 明确将其描述为面向 container runtime 的开放规范，NVIDIA GPU Operator 25.10.0 在安装/升级时默认启用 CDI，直接利用 containerd/CRI-O 等 runtime 的 CDI 支持进行注入。

这意味着“设备进入容器”这一步也在走向可替换、可标准化接口。

HAMi：从“共享工具”到“可治理数据平面”

在标准化通路上，HAMi 的角色需要重新定义：它不是要替代 Kubernetes，而是把 GPU 虚拟化与切分做成可声明、可调度、可治理的数据平面。

数据平面视角

HAMi 的核心是将“整卡整数”的资源单位扩展为 core/memory 等份额，形成完整的分配链路：

设备发现：识别可用 GPU 设备和型号。
调度落位：通过 Scheduler Extender 让原生调度器“看懂”vGPU 资源模型（Filter/Score/Bind 三段式）。
容器内兑现：把份额约束注入容器运行时。
指标导出：提供可观测的利用率、隔离度等指标。

这种方式让“共享”不再是容器里自觉的经验主义，而是可以被 YAML 声明、被策略调度、被指标验收的工程能力。

调度机制：不是替换，而是增强

HAMi 的调度并非替换 Kubernetes，而是用 Scheduler Extender 让原生调度器“看懂”vGPU 资源模型：

Filter：根据显存、算力、设备类型、拓扑等约束过滤节点。
Score：提供 binpack、spread、topology-aware 等可配置策略。
Bind：完成设备与 Pod 的最终绑定。

因此，HAMi 天然适合作为“AI 控制面（队列/配额/优先级）”之下的执行层，与 Volcano、Kueue、Koordinator 等形成职责分工。

生产证据：从“能不能共享”到“能不能运营”

CNCF 的公开案例为 GPU 虚拟化的生产级能力提供了直观证据：

在一个跨公有云与私有云的多集群平台中，Kubernetes + HAMi 支撑 10,000+ Pod 并发，把 GPU 利用率从 13% 提升到 37%（近 3 倍）。

图 5: CNCF 生产案例数据汇总：Ke Holdings 13%→37%、DaoCloud 80%+ 利用率、SF Technology 节省 57%

以下是 CNCF 生产案例的实证数据：

案例	场景/项目	核心成果	特色
贝壳找房	跨 5 集群平台 H200/H100/A100/V100/4090 等多型号训练整卡池 vs 推理 vGPU 池	整体 GPU 利用率 13% → 37%（近 3 倍）10,000+ Pod 并发	多型号异构调度
DaoCloud	硬约束：云原生、vendor-agnostic、CNCF 工具链	平均 GPU 利用率 80%+ 运营成本下降 20–30% 10+ 数据中心、10,000+ GPU 卡	统一抽象层跨 NVIDIA + 国产 GPU
Prep EDU	异构 RTX 4070/4090 集群	资源隔离失败 → GPU 虚拟化调度提升利用率	与 GPU Operator、RKE2 生产集成
顺丰科技	大模型推理、测试、语音识别国产 AI 硬件适配（华为昇腾、百度昆仑等）	GPU 节省 57%（生产 + 测试集群）大模型推理 65 服务/28 GPU 测试 19 服务/6 GPU	跨节点协同调度、优先级抢占内存超售技术

这些案例证明，GPU 虚拟化成为经济上有意义的能力，前提是它参与到一个可治理的契约——利用率、隔离度、策略可以被表达、被测量、被持续改进。

国产芯片的崛起：智谱 GLM-5 的实践

一个更具信号意义的案例来自智谱 AI：GLM-5 在上线后不久即完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配，通过底层算子优化与硬件加速，在国产芯片集群上实现高吞吐、低延迟的稳定运行。详见 GLM-5 开源：从代码到工程，Agentic Engineering 时代最好的开源模型

这个案例的重要性在于：它不是"试验性适配"，而是承载全球爆量生产流的真实部署。GLM 系列模型在全球权威的 Artificial Analysis 榜单中位居开源第一，GLM-5 更是在全球开发者社区中引发爆量采用——在这样的规模下，“能否在多型号、多厂商的国产 GPU 集群上稳定服务"不再是技术验证问题，而是业务连续性问题。

从开放调度的视角看：

硬件层面的异构性正在成为常态：国产芯片从"可用"走向"可规模化部署”，意味着调度系统必须真正具备跨厂商、跨型号的资源抽象与治理能力
“适配"不再是单点工程，而是需要可声明的契约：GLM-5 能在多个国产 GPU 平台上实现"底层算子优化与硬件加速”，恰恰证明了当资源表达、设备注入、调度约束都成为可声明的工程能力时，上层应用才有空间做深度优化
开放调度是国产芯片生态化的前提：当硬件层走向多元化，“能不能在多种芯片上跑"会变成"能不能以可预测的运维成本和治理水平在多种芯片上跑”——这需要标准化接口作为基础

对密瓜智能的战略意义

从密瓜智能的视角，HAMi 的结构性价值更加清晰：

双层机制：开源 vs 商业

HAMi（CNCF 开源项目）：负责“采用与信任”，聚焦 GPU 虚拟化与算力优化。
密瓜智能企业产品与服务：负责“落地与规模化运行”，基于 HAMi 提供商业发行版。

这种边界是长期信任的底线——项目与公司产品分离，商业发行版与企业服务基于开源项目。

商业化的正确落点

DaoCloud 的案例已将 vendor-agnostic 与兼容 CNCF 工具链设为硬约束，并把“减少 vendor dependency”写进收益清单。Project-HAMi 的官方文档也将“避免 vendor lock”列为主打价值之一。

在此基础上，商业化更合理的落点不是“把调度闭源”，而是围绕企业真实复杂度提供产品化能力：

更系统化的兼容矩阵
SLO/尾延迟治理
可计费计量
RBAC/配额/多集群治理
升级与回滚安全
对 DRA/CDI 等规范化路径的更快落地与工程化整合

前瞻判断：接下来的 2–3 年

我个人判断，未来 2–3 年，GPU 调度的竞争重点会从“谁的实现更黑盒”转向“谁的契约更开放”。

原因如下：

硬件形态和供应链正在变得更复杂

OpenAI 2026-02-12 发布的“GPT‑5.3‑Codex‑Spark”强调超低时延 serving，包括持久 WebSocket 和 Cerebras 硬件上的专用 serving tier。
大规模 GPU 资产融资（用于泛欧部署）显示了加速器舰队的基础设施规模和金融工程。

这些信号表明，异构性会持续增长——混合加速器、混合云、混合工作负载类型。

低时延推理 tier 会逼迫资源调度体系化

低时延推理 tier（不仅限于 GPU）会推动资源调度走向“多加速器、多层缓存、多类节点”的体系化设计，调度必须面向异构。

开放调度不是理想主义，而是风险管理

在这样的世界里，“开放调度”不是理想主义，而是风险管理。围绕 DRA/CDI 这样不断被固化的开放接口，把调度做成可插拔、多租户可治理、且能被生态共同演进的“控制平面/数据平面组合”，更像是 AI Native Infrastructure 真正可持续的路径。

下一个主战场不是“谁的调度更聪明”，而是“谁能把设备资源契约标准化到可治理”。

总结

当你把 2025 的 HAMi 放回更大的 AI Native Infrastructure 语境里看，它已经不再是“GPU 共享工具箱”的一年，而是一个更结构性的信号：GPU 正在走向开放调度。

这场转变的驱动力来自两端：

上游：DRA/CDI 等标准不断固化。
下游：规模化与多样化（多云、多型号、甚至 GPU 之外的加速器形态）。

对密瓜智能而言，HAMi 的意义已经超出一个“GPU 共享工具”：它把 GPU 虚拟化与切分变成可声明、可调度、可计量的数据平面，让队列/配额/优先级/多租户等控制面治理真正闭环。

核心内容

核心内容

技术专栏

技术专栏

更多内容

更多内容

AI

AI

云原生

云原生

更多

更多

精选资源