基础认知与问题定义

草稿

本章建立 GPU 基础设施的认知框架,帮助读者理解异构生态图谱、资源治理难点、控制面与数据平面的分工、Kubernetes 设备模型边界,以及评估 GPU 方案的统一决策轴。

章节目录

GPU 异构生态导引

草稿

系统梳理 AI 训练与推理领域 GPU 厂商生态,涵盖国产 GPU 分层图谱、海外主流与新兴加速器、主流芯片在 Kubernetes 中的支持现状,并附结构化生态图谱,帮助读者建立异构 GPU 生态与技术路线的清晰认知。

GPU 资源治理为什么难

草稿

定义 GPU 共享、隔离、治理的根因:显存、拓扑、干扰与尾延迟,以及训练与推理的资源形态差异。

GPU 资源控制面地图

草稿

给出控制面与数据平面的分工地图,后续所有项目、机制与实验都将回到这张图上归类与对齐。

K8s 设备资源模型

草稿

理解 Kubernetes 对 GPU 这类设备资源的表达能力与天然限制,并明确调度、分配与隔离的责任边界。

GPU 评估决策轴

草稿

给出可直接用于选型评审的决策矩阵:粒度、隔离、性能干扰、可观测、运维复杂度、兼容性与异构扩展。

创建于 2026/01/10 更新于 2026/01/10 384 字 阅读约 1 分钟