主页 图书/教程 K8s 中的 GPU 管理手册 工作负载实践工作负载实践 草稿 内容导航 图书内部搜索... 本文暂无目录本章从工作负载视角探讨 GPU 平台实践:实验方法学总览、Ray/KubeRay 拓扑约束、vLLM 推理性能、PyTorch 训练调度,帮助理解真实负载如何放大平台问题。章节目录vLLM 草稿从并发、KV cache 与显存形态解释推理为何放大共享问题,并给出可治理的部署与验收思路。PyTorch 草稿训练更依赖稳定吞吐与通信拓扑,讨论抢占、弹性与 checkpoint 如何影响调度器与数据平面策略。Ray 与拓扑 草稿多卡/多节点场景下,GPU 调度从资源数量升级为拓扑与通信主导,需关注资源表达与可用性验收。Hands-on 总览 草稿定义实验对照组与统一指标:无 MIG(可共享但不可控)、MIG(强隔离)、HAMi(细粒度可治理)。创建于 2026/01/10 更新于 2026/01/10 273 字 阅读约 1 分钟