Kubernetes 中的 GPU 调度与虚拟化手册

建设中
发行日期
2025/12/29
作者
Jimmy Song
发行方
jimmysong.io
提示
本手册目前处于草稿阶段,内容仍在持续完善中。

GPU 资源问题正在从“单机性能优化”迁移为“平台治理问题”:共享与隔离、碎片化与调度、在线推理的尾延迟、以及异构与多租户带来的组织治理复杂度。本书以 Kubernetes 为基座,系统梳理 GPU 资源的控制面与数据平面,并通过可复现实验把关键结论落到工程事实。

你将获得三类可复用资产:统一决策轴(可用于选型评审)、参考架构组合(可用于平台落地)、以及可复制的 hands-on 实验(可用于演示/培训/验收)。

章节目录

基础认知与问题定义

草稿

建立 GPU 基础设施的认知框架,理解异构生态、资源治理难点、控制面与数据平面分工及评估决策轴。

数据平面技术

草稿

系统梳理 GPU 数据平面核心技术,包括数据平面谱系、MIG 硬件隔离、HAMi 可声明共享及工程权衡。

控制面治理

草稿

聚焦 GPU 资源控制面治理能力,包括生态放置、Kthena 推理调度、Volcano 批处理、Kueue 配额准入及参考架构。

工作负载实践

草稿

从工作负载视角探讨 GPU 平台实践,包括实验方法学、Ray/KubeRay 拓扑约束、vLLM 推理性能及 PyTorch 训练调度。

可观测与验收

草稿

建立 GPU 平台可观测与验收体系,包括观测计量、基准验收、容量规划及故障排障。

生态与趋势

草稿

聚焦 GPU 生态长期演进,包括生态图谱、趋势分析及读者参与机制。

创建于 2025/12/29 更新于 2026/01/10 523 字 阅读约 2 分钟