数据平面技术
草稿
本章系统梳理 GPU 数据平面的核心技术:数据平面谱系、MIG 硬件级隔离、HAMi 可声明共享、DRA 动态资源分配,以及它们在资源单位、隔离强度、运维成本等方面的工程权衡。
关于
虽然 HAMi 包含调度扩展与控制面组件,但其核心价值在于将 GPU 共享能力兑现为可运行、可治理的资源单位,因此本书将其主要归入数据平面讨论。更深一层看,随着 DRA 成熟后 Kubernetes Scheduler 接管资源声明、Kueue 接管队列、Volcano 接管 batch placement,HAMi 未来可能收缩为更纯的数据平面——专注 GPU runtime、虚拟化与异构设备执行。也就是说,HAMi 今天是跨层系统,但其不可替代价值主要在数据平面,所以将其放在本章节讨论。