本章建立 GPU 平台的可观测与验收体系:观测与计量十个关键问题、基准验收与容量规划、故障模式与排障手册,让平台从"能跑"升级为"可交付"。
章节目录
观测与计量
草稿
梳理 GPU 平台运营的关键问题清单,涵盖占用、利用率、干扰、SLA、计量与成本归因,并给出渐进式建设路线。
验收与容量
草稿
给出可复用验收标准:吞吐、P99、干扰系数、碎片率、失败率,并把实验结果转化为容量规划输入。
排障
草稿
聚焦线上常见问题:OOM、版本不一致、MIG 重配置、调度抖动,并给出从控制面到数据平面的定位路径。