本章建立 GPU 基础设施的认知框架,帮助读者理解异构生态图谱、资源治理难点、控制面与数据平面的分工、Kubernetes 设备模型边界,以及评估 GPU 方案的统一决策轴。
章节目录
AI 加速芯片生态图谱
草稿
从基础设施工程师的视角梳理 AI 加速芯片生态,按芯片类型(通用 GPU、专用 AI 加速器、云厂商自研芯片、垂直场景芯片)分类,评估各厂商的 Kubernetes 集成成熟度,帮助平台工程师建立选型坐标系。
GPU 基础认知
草稿
为从未在生产中使用过 GPU 的读者建立可复用的心智模型,理解 GPU 的本质、显存与算力的差异、NVIDIA 数据中心 GPU 演进,以及从硬件到 Kubernetes 的端到端使用与调度路径。
异构加速器全景
草稿
系统梳理 CPU、GPU、TPU、NPU、DPU、APU 与 LPU 七种 AI 加速器的设计哲学、适用场景与常见误用,为 GPU 基础设施建设建立异构硬件的认知框架。
GPU 资源治理为什么难
草稿
定义 GPU 共享、隔离、治理的根因:显存、拓扑、干扰与尾延迟,以及训练与推理的资源形态差异。
GPU 资源控制面地图
草稿
给出控制面与数据平面的分工地图,后续所有项目、机制与实验都将回到这张图上归类与对齐。
GPU 平台能力模型
草稿
提出一套可复用的 GPU 平台能力模型,抽象平台交付能力单元、适用前提与验收方式,助力生产环境治理与选型。
K8s 设备资源模型
草稿
理解 Kubernetes 对 GPU 这类设备资源的表达能力与天然限制,并明确调度、分配与隔离的责任边界。
GPU 评估决策轴
草稿
给出可直接用于选型评审的决策矩阵:粒度、隔离、性能干扰、可观测、运维复杂度、兼容性与异构扩展。