当 GPU 走向开放调度:HAMi 2025 年的结构性转变

解析 GPU 开放调度的结构性变革,聚焦 DRA/CDI 标准、GPU 虚拟化数据平面、开源生态与反锁定风险。

GPU 调度的未来,不在于谁的实现更“黑盒”,而在于谁能把资源契约标准化到可治理。

图 1: GPU 走向开放调度
图 1: GPU 走向开放调度

引言

你是否想过:为什么 GPU 这么贵,但整体利用率却经常只有 10%–20%?

图 2: GPU 利用率问题
图 2: GPU 利用率问题

这不是一个"优化算法"能解决的问题,而是一个结构性问题——GPU 调度正在经历一场从"私有实现"到"开放调度"的转变,类似当年网络走向 CNI、存储走向 CSI 的标准化路径。

HAMi 2025 年度回顾 中提到:“2025 的 HAMi 已经不再只是一个 GPU 共享工具箱,而是一个更结构性的信号:GPU 正在走向开放调度。”

2025 年,这个转变的信号已经清晰可见:Kubernetes DRA(Dynamic Resource Allocation)进入 GA 并默认启用,NVIDIA GPU Operator 开始默认使用 CDI(Container Device Interface)开放规范,而 HAMi 在 CNCF 的生产级案例正在把"GPU 共享"从实验能力推向运营能力。

本文将从 AI Native Infrastructure 的视角,深入解析这场结构性转变的驱动力、证据链以及对「Dynamia 密瓜智能」和整个行业的战略意义。

为什么“开放调度”很重要

在多云/混合云环境下,GPU 型号多样性会显著放大运维成本。以某大型互联网公司为例,其平台覆盖 H200/H100/A100/V100/4090 等多型号 GPU,跨 5 个集群。如果只能“整卡分配”,资源错配几乎不可避免。

“开放调度”不是一句口号,而是一组正在被主流栈固化的工程契约。

资源表达的标准化

过去,GPU 作为扩展资源(extended resources),调度器无法识别其显存、算力或设备类型等属性。

图 3: 开放调度标准化演进
图 3: 开放调度标准化演进

现在,Kubernetes DRA 通过 DeviceClass、ResourceClaim、ResourceSlice 等对象,让驱动和集群管理员可以定义设备类别与选择条件(支持 CEL 选择器)。Kubernetes 在调度时完成“匹配设备 → 绑定声明 → 把 Pod 放到可访问节点”的完整流程。

更重要的是,Kubernetes 1.34 明确承诺:resource.k8s.io 组的核心 API 进入 GA,DRA 变得稳定且默认启用,后续不会再有破坏性变更。这意味着生态可以以“标准 API”为锚点开始规模化投资。

设备注入的标准化

过去,设备注入容器依赖 vendor-specific 的 hooks 和 runtime class 模式。

现在,CDI 将设备注入语义抽象成开放规范。NVIDIA Container Toolkit 明确将其描述为面向 container runtime 的开放规范,NVIDIA GPU Operator 25.10.0 在安装/升级时默认启用 CDI,直接利用 containerd/CRI-O 等 runtime 的 CDI 支持进行注入。

这意味着“设备进入容器”这一步也在走向可替换、可标准化接口。

HAMi:从“共享工具”到“可治理数据平面”

在标准化通路上,HAMi 的角色需要重新定义:它不是要替代 Kubernetes,而是把 GPU 虚拟化与切分做成可声明、可调度、可治理的数据平面。

数据平面视角

HAMi 的核心是将“整卡整数”的资源单位扩展为 core/memory 等份额,形成完整的分配链路:

  1. 设备发现:识别可用 GPU 设备和型号。
  2. 调度落位:通过 Scheduler Extender 让原生调度器“看懂”vGPU 资源模型(Filter/Score/Bind 三段式)。
  3. 容器内兑现:把份额约束注入容器运行时。
  4. 指标导出:提供可观测的利用率、隔离度等指标。

这种方式让“共享”不再是容器里自觉的经验主义,而是可以被 YAML 声明、被策略调度、被指标验收的工程能力。

调度机制:不是替换,而是增强

HAMi 的调度并非替换 Kubernetes,而是用 Scheduler Extender 让原生调度器“看懂”vGPU 资源模型:

  • Filter:根据显存、算力、设备类型、拓扑等约束过滤节点。
  • Score:提供 binpack、spread、topology-aware 等可配置策略。
  • Bind:完成设备与 Pod 的最终绑定。

因此,HAMi 天然适合作为“AI 控制面(队列/配额/优先级)”之下的执行层,与 Volcano、Kueue、Koordinator 等形成职责分工。

图 4: HAMi 调度架构(Filter → Score → Bind)
图 4: HAMi 调度架构(Filter → Score → Bind)

生产证据:从“能不能共享”到“能不能运营”

CNCF 的公开案例为 GPU 虚拟化的生产级能力提供了直观证据:

在一个跨公有云与私有云的多集群平台中,Kubernetes + HAMi 支撑 10,000+ Pod 并发,把 GPU 利用率从 13% 提升到 37%(近 3 倍)。

图 5: CNCF 生产案例数据汇总:Ke Holdings 13%→37%、DaoCloud 80%+ 利用率、SF Technology 节省 57%
图 5: CNCF 生产案例数据汇总:Ke Holdings 13%→37%、DaoCloud 80%+ 利用率、SF Technology 节省 57%

以下是 CNCF 生产案例的实证数据:

案例场景/项目核心成果特色
贝壳找房跨 5 集群平台 H200/H100/A100/V100/4090 等多型号训练整卡池 vs 推理 vGPU 池整体 GPU 利用率 13% → 37%(近 3 倍)10,000+ Pod 并发多型号异构调度
DaoCloud硬约束:云原生、vendor-agnostic、CNCF 工具链平均 GPU 利用率 80%+ 运营成本下降 20–30% 10+ 数据中心、10,000+ GPU 卡统一抽象层跨 NVIDIA + 国产 GPU
Prep EDU异构 RTX 4070/4090 集群资源隔离失败 → GPU 虚拟化调度提升利用率与 GPU Operator、RKE2 生产集成
顺丰科技大模型推理、测试、语音识别国产 AI 硬件适配(华为昇腾、百度昆仑等)GPU 节省 57%(生产 + 测试集群)大模型推理 65 服务/28 GPU 测试 19 服务/6 GPU跨节点协同调度、优先级抢占内存超售技术

这些案例证明,GPU 虚拟化成为经济上有意义的能力,前提是它参与到一个可治理的契约——利用率、隔离度、策略可以被表达、被测量、被持续改进。

国产芯片的崛起:智谱 GLM-5 的实践

一个更具信号意义的案例来自智谱 AI:GLM-5 在上线后不久即完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配,通过底层算子优化与硬件加速,在国产芯片集群上实现高吞吐、低延迟的稳定运行。详见 GLM-5 开源:从代码到工程,Agentic Engineering 时代最好的开源模型

图 6: 国产芯片生态(GLM-5 + 多厂商)
图 6: 国产芯片生态(GLM-5 + 多厂商)

这个案例的重要性在于:它不是"试验性适配",而是承载全球爆量生产流的真实部署。GLM 系列模型在全球权威的 Artificial Analysis 榜单中位居开源第一,GLM-5 更是在全球开发者社区中引发爆量采用——在这样的规模下,“能否在多型号、多厂商的国产 GPU 集群上稳定服务"不再是技术验证问题,而是业务连续性问题。

从开放调度的视角看:

  • 硬件层面的异构性正在成为常态:国产芯片从"可用"走向"可规模化部署”,意味着调度系统必须真正具备跨厂商、跨型号的资源抽象与治理能力
  • “适配"不再是单点工程,而是需要可声明的契约:GLM-5 能在多个国产 GPU 平台上实现"底层算子优化与硬件加速”,恰恰证明了当资源表达、设备注入、调度约束都成为可声明的工程能力时,上层应用才有空间做深度优化
  • 开放调度是国产芯片生态化的前提:当硬件层走向多元化,“能不能在多种芯片上跑"会变成"能不能以可预测的运维成本和治理水平在多种芯片上跑”——这需要标准化接口作为基础

对密瓜智能的战略意义

从密瓜智能的视角,HAMi 的结构性价值更加清晰:

双层机制:开源 vs 商业

图 7: 密瓜智能双层机制(开源 vs 商业)
图 7: 密瓜智能双层机制(开源 vs 商业)
  • HAMi(CNCF 开源项目):负责“采用与信任”,聚焦 GPU 虚拟化与算力优化。
  • 密瓜智能企业产品与服务:负责“落地与规模化运行”,基于 HAMi 提供商业发行版。

这种边界是长期信任的底线——项目与公司产品分离,商业发行版与企业服务基于开源项目。

商业化的正确落点

DaoCloud 的案例已将 vendor-agnostic 与兼容 CNCF 工具链设为硬约束,并把“减少 vendor dependency”写进收益清单。Project-HAMi 的官方文档也将“避免 vendor lock”列为主打价值之一。

在此基础上,商业化更合理的落点不是“把调度闭源”,而是围绕企业真实复杂度提供产品化能力

  • 更系统化的兼容矩阵
  • SLO/尾延迟治理
  • 可计费计量
  • RBAC/配额/多集群治理
  • 升级与回滚安全
  • 对 DRA/CDI 等规范化路径的更快落地与工程化整合

前瞻判断:接下来的 2–3 年

我个人判断,未来 2–3 年,GPU 调度的竞争重点会从“谁的实现更黑盒”转向“谁的契约更开放”。

原因如下:

硬件形态和供应链正在变得更复杂

  • OpenAI 2026-02-12 发布的“GPT‑5.3‑Codex‑Spark”强调超低时延 serving,包括持久 WebSocket 和 Cerebras 硬件上的专用 serving tier。
  • 大规模 GPU 资产融资(用于泛欧部署)显示了加速器舰队的基础设施规模和金融工程。

这些信号表明,异构性会持续增长——混合加速器、混合云、混合工作负载类型。

低时延推理 tier 会逼迫资源调度体系化

低时延推理 tier(不仅限于 GPU)会推动资源调度走向“多加速器、多层缓存、多类节点”的体系化设计,调度必须面向异构。

开放调度不是理想主义,而是风险管理

在这样的世界里,“开放调度”不是理想主义,而是风险管理。围绕 DRA/CDI 这样不断被固化的开放接口,把调度做成可插拔、多租户可治理、且能被生态共同演进的“控制平面/数据平面组合”,更像是 AI Native Infrastructure 真正可持续的路径。

下一个主战场不是“谁的调度更聪明”,而是“谁能把设备资源契约标准化到可治理”。

总结

当你把 2025 的 HAMi 放回更大的 AI Native Infrastructure 语境里看,它已经不再是“GPU 共享工具箱”的一年,而是一个更结构性的信号:GPU 正在走向开放调度。

图 8: 开放调度未来愿景
图 8: 开放调度未来愿景

这场转变的驱动力来自两端:

  • 上游:DRA/CDI 等标准不断固化。
  • 下游:规模化与多样化(多云、多型号、甚至 GPU 之外的加速器形态)。

对密瓜智能而言,HAMi 的意义已经超出一个“GPU 共享工具”:它把 GPU 虚拟化与切分变成可声明、可调度、可计量的数据平面,让队列/配额/优先级/多租户等控制面治理真正闭环。

宋净超(Jimmy Song)

宋净超(Jimmy Song)

专注于 AI 原生基础设施与云原生应用架构的研究与开源实践。

文章导航