从云原生走向 AI 原生:一套面向未来的架构方法论 → 阅读《AI 原生基础设施》

数据平面技术

草稿

本章系统梳理 GPU 数据平面的核心技术:数据平面谱系、MIG 硬件级隔离、HAMi 可声明共享、DRA 动态资源分配,以及它们在资源单位、隔离强度、运维成本等方面的工程权衡。

关于
虽然 HAMi 包含调度扩展与控制面组件,但其核心价值在于将 GPU 共享能力兑现为可运行、可治理的资源单位,因此本书将其主要归入数据平面讨论。更深一层看,随着 DRA 成熟后 Kubernetes Scheduler 接管资源声明、Kueue 接管队列、Volcano 接管 batch placement,HAMi 未来可能收缩为更纯的数据平面——专注 GPU runtime、虚拟化与异构设备执行。也就是说,HAMi 今天是跨层系统,但其不可替代价值主要在数据平面,所以将其放在本章节讨论。

章节目录

数据平面谱系

草稿

系统梳理 MIG/vGPU/时间片/配额/显存策略等机制的根本差异,并建立对比基线。

MIG

草稿

聚焦 MIG 的工程事实:强隔离的来源、离散单位的约束、重配置成本与调度耦合。

HAMi

草稿

从数据平面视角拆解 HAMi,聚焦细粒度资源单位、共享治理、隔离与兼容性的工程权衡及适用场景。

DRA

草稿

深入分析 DRA 的架构动机、API 机制与设计取舍,理解它如何从 Device Plugin 的 Allocate 黑盒走向可声明、可推理的资源分配。

创建于 2026/01/10 更新于 2026/04/19 476 字 阅读约 1 分钟