Name: 基础认知与问题定义
Author: Jimmy Song

本章建立 GPU 基础设施的认知框架，帮助读者理解异构生态图谱、资源治理难点、控制面与数据平面的分工、Kubernetes 设备模型边界，以及评估 GPU 方案的统一决策轴。

章节目录

AI 加速芯片生态图谱

草稿

从基础设施工程师的视角梳理 AI 加速芯片生态，按芯片类型（通用 GPU、专用 AI 加速器、云厂商自研芯片、垂直场景芯片）分类，评估各厂商的 Kubernetes 集成成熟度，帮助平台工程师建立选型坐标系。

GPU 基础认知

草稿

为从未在生产中使用过 GPU 的读者建立可复用的心智模型，理解 GPU 的本质、显存与算力的差异、NVIDIA 数据中心 GPU 演进，以及从硬件到 Kubernetes 的端到端使用与调度路径。

异构加速器全景

草稿

系统梳理 CPU、GPU、TPU、NPU、DPU、APU 与 LPU 七种 AI 加速器的设计哲学、适用场景与常见误用，为 GPU 基础设施建设建立异构硬件的认知框架。

GPU 资源治理为什么难

草稿

定义 GPU 共享、隔离、治理的根因：显存、拓扑、干扰与尾延迟，以及训练与推理的资源形态差异。

GPU 资源控制面地图

草稿

给出控制面与数据平面的分工地图，后续所有项目、机制与实验都将回到这张图上归类与对齐。

GPU 平台能力模型

草稿

提出一套可复用的 GPU 平台能力模型，抽象平台交付能力单元、适用前提与验收方式，助力生产环境治理与选型。

K8s 设备资源模型

草稿

理解 Kubernetes 对 GPU 这类设备资源的表达能力与天然限制，并明确调度、分配与隔离的责任边界。

GPU 评估决策轴

草稿

给出可直接用于选型评审的决策矩阵：粒度、隔离、性能干扰、可观测、运维复杂度、兼容性与异构扩展。

创建于 2026/01/10 更新于 2026/01/10 607 字阅读约 2 分钟

技术专栏

技术专栏

更多内容

更多内容

AI

AI

云原生

云原生

更多

更多

精选资源

精选资源

交流与反馈

交流与反馈

更多

更多

快速链接

快速链接

微信公众号

微信公众号

微信联系

微信联系

基础认知与问题定义

章节目录