从云原生走向 AI 原生:一套面向未来的架构方法论 → 阅读《AI 原生基础设施》

AI 加速芯片生态图谱:芯片类型、Kubernetes 集成与选型框架

草稿

本文从基础设施工程师的视角梳理 AI 加速芯片生态。不按融资轮次或公司规模分类,而是按芯片类型和 Kubernetes 集成难度建立坐标系——因为对平台工程师来说,真正影响选型的不是谁融资多,而是这块卡能不能跑通你现有的 K8s 调度体系。

为什么要按芯片类型而不是公司梯队分类

很多 AI 芯片分析喜欢用“头部/腰部/尾部”或者“第一/第二梯队”来划分厂商。这种分法对投资人也许有用,但对基础设施工程师来说价值有限。一个融资三轮的通用 GPU 厂商和一个已经量产交付的专用推理芯片公司,放在一起比“梯队”没有意义,因为它们解决的是完全不同的问题。

更实际的做法是按芯片类型分类,因为在每个类型内部,工程决策的逻辑是相似的:通用 GPU 之间比 CUDA 兼容性和驱动成熟度,专用 AI 加速器之间比框架支持和场景适配,云厂商自研芯片之间比生态开放度和可移植性。而 Kubernetes 集成成熟度则是横跨所有类型的一条评估主线。

四类芯片:一条分类轴

下面的图谱和表格从芯片类型和 Kubernetes 集成难度两个维度,对当前主要的 AI 加速芯片厂商做了分类。芯片类型决定了它的适用场景和生态路径,K8s 集成难度则直接关系到平台工程师的实际工作量。

图 1: AI 加速芯片生态图谱:按芯片类型与 Kubernetes 集成成熟度分类
图 1: AI 加速芯片生态图谱:按芯片类型与 Kubernetes 集成成熟度分类

这张图谱按通用 GPU、专用 AI 加速器、云厂商自研芯片和垂直场景芯片四个阵营组织厂商,底部标注了横跨所有类型的 K8s 集成成熟度评估线。

芯片类型核心特征K8s 集成难度典型玩家
通用 GPU兼容 CUDA/ROCm,通用计算NVIDIA、AMD、沐曦、摩尔线程、壁仞、天数智芯
专用 AI 加速器自研架构,针对推理/训练优化华为昇腾、寒武纪、燧原、昆仑芯、Google TPU
云厂商自研芯片服务自有业务,不对外销售不适用平头哥含光、腾讯紫霄、百度昆仑芯(部分)
垂直场景芯片面向特定终端或场景高(或不适用)地平线征程、黑芝麻、Horizon、Apple Neural Engine
表 1: AI 加速芯片四象限分类

通用 GPU 阵营

通用 GPU 是当前 AI 基础设施的主流选择。它们的核心优势是通用性和生态成熟度:一块卡既能跑训练又能跑推理,主流框架原生支持,容器化和 K8s 调度方案相对成熟。

NVIDIA 仍然占据绝对主导地位。H100/H200 和即将量产的 Blackwell B200 定义了训练和推理的性能标杆,CUDA 生态的护城河不是一年两年能填平的。在 Kubernetes 生态中,NVIDIA 提供了最完整的工具链:官方 Container Toolkit、Device Plugin、MIG 多实例支持,并且已经在推进 DRA 驱动。HAMi 对 NVIDIA GPU 的支持也最完善。对平台工程师来说,选 NVIDIA 意味着最低的集成风险,但代价是硬件成本和供应商锁定。

AMD 是最有力的替代选项。MI300X/MI325X 在显存容量和性价比上有竞争力,ROCm 软件栈近年来进步明显,PyTorch 官方支持已经比较完善。Kubernetes 集成方面,AMD 提供了官方 Device Plugin 和 ROCm 容器运行时,DRA 驱动正在开发中。主要短板在于 CUDA 兼容性——虽然 HIP 转换工具能用,但大型项目的迁移成本仍然不可忽视。

国产通用 GPU 厂商近几年进步很快,但工程成熟度和 NVIDIA 仍有明显差距。

摩尔线程(Moore Threads) 是国产厂商中特别值得关注的一个。它由前 NVIDIA 中国区总经理创立,是目前少数同时具备桌面和数据中心产品线的全功能 GPU 公司。苏堤/春晓架构已经迭代多代,MTT S3000 服务器显卡已在一些政企场景落地。摩尔线程构建了自主 MUSA 架构,兼容主流图形和计算 API,在 K8s 集成上通过自有 Device Plugin 和 HAMi 项目逐步接入。

沐曦科技(MetaX) 走的是“对标 AMD”的路线——由 AMD 前资深工程师团队创立,曦云 C500/C550 在 FP16/BF16 算力上达到 A100 同级区间,强调 CUDA 兼容性和高通用性,K8s 集成通过自有插件和 HAMi 接入。

壁仞科技(Biren Tech) 的 BR100 采用 Chiplet 架构,峰值算力参数亮眼(1024 TFLOPS BF16),但在实际交付和软件栈成熟度上还有距离。

天数智芯(Iluvatar CoreX) 是国内较早研发 7nm 通用 GPU 的企业,第二代产品“智铠 100”已推出,强调云端训练与推理场景。

这些国产厂商的共同挑战是 CUDA 生态兼容性和软件栈成熟度。从平台工程视角看,它们在 K8s 上的集成主要通过两种路径:自有 Device Plugin(基础调度)或 HAMi 项目(共享调度)。标准化程度和稳定性与 NVIDIA 相比还有明显差距,DRA 方案基本处于空白。

专用 AI 加速器阵营

这类芯片的特点是放弃通用性,针对 AI 计算做深度优化。它们通常不兼容 CUDA,提供自研软件栈,在特定场景下性能效率更高,但通用性和生态广度不如通用 GPU。

华为昇腾(Ascend) 是国内专用 AI 加速器中部署规模最大的。昇腾 910 系列已迭代多代,CANN 软件栈和 MindSpore 框架构成了完整的软件体系。昇腾的优势在于华为的系统性支持——从芯片到服务器到云服务到开发框架全栈覆盖,在信创和超算领域获得了大量部署。Kubernetes 集成方面,华为提供了专用 Device Plugin,支持静态和动态虚拟化,HAMi 已支持昇腾的共享调度。主要限制在于不兼容 CUDA,迁移成本高,且 DRA 驱动尚未公开。

寒武纪(Cambricon) 是国内 AI 芯片领域的先行者,出身中科院,2020 年科创板上市。思元 590 芯片已在大模型训练场景中大规模落地,阿里云通义大模型有采购寒武纪 MLU 芯片作为 GPU 替代。K8s 集成方面提供官方 Device Plugin,HAMi 已集成细粒度共享调度,但 DRA 驱动有待推进。

燧原科技(Enflame) 专注 AI 训练与推理,云燧训练系列和雨霁推理系列已迭代三代。技术路线偏向专用架构深度定制,获得腾讯投资,在腾讯云的推理场景有一定部署。

昆仑芯(Baidu Kunlun) 是百度自研的云端 AI 芯片,主要用于百度内部的大规模推理。虽然定位为通用 AI 芯片,但实际使用高度绑定百度生态,对外独立推广的力度有限。

Google TPU 是海外专用加速器的代表。TPU 不对外售卖硬件,只通过 Google Cloud 提供服务。它针对 Transformer 和 JAX/TensorFlow 做了深度优化,在大规模训练场景下有显著的性价比优势。对使用 Google Cloud 的团队来说,TPU 是值得评估的选项,但不适合需要多云部署或本地化训练的场景。在 Kubernetes 集成上,GKE 提供了原生的 TPU 支持,但社区标准的 Device Plugin 和 DRA 方案不适用于 TPU。

云厂商自研芯片阵营

这类芯片的特点是“不为卖而做,为己所用”。它们不进入公开市场销售,只服务于母公司的云服务或内部业务。

平头哥含光 是阿里巴巴达摩院自研的 AI 推理芯片,已大规模部署在阿里云的视觉 AI、搜索推荐等场景。含光 800 在推理吞吐和能效比上表现突出,但它不作为独立产品对外销售,外部用户只能通过阿里云的推理服务间接使用。

腾讯紫霄 是腾讯自研的 AI 推理芯片,服务于腾讯内部的游戏 AI、内容审核和推荐系统。和含光类似,不对外销售。

百度昆仑芯在前面已经提过,它的情况比较特殊——虽然是百度自研,但百度也在推动昆仑芯的外部商业化,所以它横跨“自研”和“专用加速器”两个象限。

对平台工程师来说,这类芯片的选型逻辑很简单:如果你深度使用某家云厂商的服务,可以评估其自研芯片通过云服务间接使用的性价比;如果你需要本地化部署或多云架构,这类芯片基本不在考虑范围内。

垂直场景芯片阵营

这类芯片面向非常具体的终端或场景,不直接参与数据中心的 GPU 竞争。

地平线(Horizon Robotics) 的“征程”系列车载 AI 芯片、黑芝麻智能(Black Sesame) 的汽车视觉芯片,服务于智能驾驶和车载计算。Apple Neural Engine 内置于 iPhone 和 Mac,服务端侧推理和终端 AI 体验。这些芯片的共同特点是:它们解决的是终端设备上的 AI 推理问题,和数据中心 GPU 是完全不同的赛道。

在 Kubernetes 集成上,这类芯片通常不需要也不适合接入 K8s 调度体系。它们的部署形态是嵌入式系统或边缘设备,而不是容器化集群。

Kubernetes 集成成熟度:一条横跨所有类型的评估线

无论芯片属于哪个类型,对平台工程师来说最实际的问题是:这块卡能不能跑通我现有的 K8s 体系?可以从三个层面来评估。

基础调度层:Device Plugin 是否可用。 这是最基本的要求——驱动能否在容器内正常工作、Device Plugin 能否向调度器报告设备数量、Pod 能否拿到正确的设备可见性。NVIDIA 在这一层做得最好,AMD/Intel 基本可用,国产厂商中昇腾和寒武纪有官方插件,其余厂商主要通过自有插件或 HAMi 接入。

共享与隔离层:是否支持细粒度资源切分。 当多租户需要共享 GPU 时,这一层决定了你能不能做。NVIDIA 有 MIG 硬件隔离、vGPU 软件虚拟化和时间片复用多种模式,HAMi 提供了统一的共享调度框架。AMD 的 SRIOV 部分可用,昇腾有虚拟化切分但方案封闭,其他国产厂商大多只有整卡分配。

控制面集成层:是否支持 DRA。 DRA 把设备分配从 kubelet 本地的 Allocate 黑盒提升到控制面可见的 ResourceClaim,这在 DRA 一章中已经详细分析。截至 2026 年初,只有 NVIDIA 的 CDI-based DRA 驱动进入了 beta 阶段,其他厂商基本处于观望或早期开发状态。DRA 成熟度将是未来一两年区分芯片生态的关键指标。

下面的速查表汇总了各厂商在这三个层面的支持情况,方便平台工程师在做芯片选型时快速对比。

厂商Device Plugin共享/隔离DRA 驱动HAMi 支持
NVIDIA官方,成熟MIG/vGPU/时间片Beta(CDI-based)完善
AMD官方,可用SRIOV 部分支持开发中有限
Intel官方,可用整卡直通为主探索中有限
华为昇腾官方,可用静态/动态虚拟化未公开已支持
寒武纪官方,可用HAMi 集成待推进已支持
摩尔线程自有插件HAMi 接入未公开部分支持
沐曦/壁仞/天数智芯自有插件HAMi 接入未公开有限
Google TPUGKE 原生按需切片不适用(云托管)不适用
表 2: 各厂商 Kubernetes 集成成熟度速查

平台工程师的选型框架

面对这么多选择,平台工程师的决策不需要太复杂。

如果预算充足且需要最低集成风险,NVIDIA 仍然是默认选项。CUDA 生态的成熟度、K8s 集成的完整度、HAMi/DRA 的支持进度,都是最领先的。代价是硬件成本和供应商锁定。

如果需要降低对 NVIDIA 的依赖,AMD 是当前最现实的替代方案。ROCm 对 PyTorch 的支持已经足够生产使用,K8s 集成基本可用,性价比有优势。迁移成本主要在 CUDA → HIP 的代码适配。

如果受信创或政策要求必须用国产方案,需要根据具体场景选择。通用 GPU 中摩尔线程和沐曦的进展较快,专用加速器中昇腾的部署规模最大。但要做好心理准备:国产芯片的 K8s 集成方案仍在快速迭代中,你可能需要投入更多工程力量来处理兼容性和稳定性问题。

如果深度绑定某家云厂商,可以评估其自研芯片通过云服务间接使用的性价比。平头哥含光、腾讯紫霄都是这个模式,但不要指望能本地化部署。

如果做多芯片混合部署,这是 GPU 调度体系最有挑战也最有价值的场景。前面 异构加速器全景一章已经讨论过,未来的竞争不是谁 GPU 最多,而是谁最会调度异构芯片。DRA 的成熟、HAMi 的扩展、Volcano/Kueue 的异构支持,都在为这个方向铺路。

总结

AI 加速芯片生态不是一张简单的排行榜,而是一个多维坐标系。通用 GPU 提供最低的集成风险,专用 AI 加速器在特定场景下有更好的性价比,云厂商自研芯片只服务于母公司生态,垂直场景芯片走的是完全不同的赛道。对平台工程师来说,真正重要的不是谁融资多、谁估值高,而是这块芯片能不能接入你现有的 K8s 体系,以及接入的成本有多大。从这个角度看,DRA 的推进速度和 HAMi 的适配广度,将是未来一两年衡量芯片生态成熟度的关键指标。

参考文献

创建于 2026/04/19 更新于 2026/04/19 4450 字 阅读约 9 分钟