工作负载实践

草稿

本章从工作负载视角探讨 GPU 平台实践:实验方法学总览、Ray/KubeRay 拓扑约束、vLLM 推理性能、PyTorch 训练调度,帮助理解真实负载如何放大平台问题。

章节目录

vLLM

草稿

从并发、KV cache 与显存形态解释推理为何放大共享问题,并给出可治理的部署与验收思路。

PyTorch

草稿

训练更依赖稳定吞吐与通信拓扑,讨论抢占、弹性与 checkpoint 如何影响调度器与数据平面策略。

Ray 与拓扑

草稿

多卡/多节点场景下,GPU 调度从资源数量升级为拓扑与通信主导,需关注资源表达与可用性验收。

Hands-on 总览

草稿

定义实验对照组与统一指标:无 MIG(可共享但不可控)、MIG(强隔离)、HAMi(细粒度可治理)。

创建于 2026/01/10 更新于 2026/01/10 273 字 阅读约 1 分钟