AI 加速芯片生态图谱:芯片类型、Kubernetes 集成与选型框架
本文从基础设施工程师的视角梳理 AI 加速芯片生态。不按融资轮次或公司规模分类,而是按芯片类型和 Kubernetes 集成难度建立坐标系——因为对平台工程师来说,真正影响选型的不是谁融资多,而是这块卡能不能跑通你现有的 K8s 调度体系。
为什么要按芯片类型而不是公司梯队分类
很多 AI 芯片分析喜欢用“头部/腰部/尾部”或者“第一/第二梯队”来划分厂商。这种分法对投资人也许有用,但对基础设施工程师来说价值有限。一个融资三轮的通用 GPU 厂商和一个已经量产交付的专用推理芯片公司,放在一起比“梯队”没有意义,因为它们解决的是完全不同的问题。
更实际的做法是按芯片类型分类,因为在每个类型内部,工程决策的逻辑是相似的:通用 GPU 之间比 CUDA 兼容性和驱动成熟度,专用 AI 加速器之间比框架支持和场景适配,云厂商自研芯片之间比生态开放度和可移植性。而 Kubernetes 集成成熟度则是横跨所有类型的一条评估主线。
四类芯片:一条分类轴
下面的图谱和表格从芯片类型和 Kubernetes 集成难度两个维度,对当前主要的 AI 加速芯片厂商做了分类。芯片类型决定了它的适用场景和生态路径,K8s 集成难度则直接关系到平台工程师的实际工作量。
这张图谱按通用 GPU、专用 AI 加速器、云厂商自研芯片和垂直场景芯片四个阵营组织厂商,底部标注了横跨所有类型的 K8s 集成成熟度评估线。
| 芯片类型 | 核心特征 | K8s 集成难度 | 典型玩家 |
|---|---|---|---|
| 通用 GPU | 兼容 CUDA/ROCm,通用计算 | 低 | NVIDIA、AMD、沐曦、摩尔线程、壁仞、天数智芯 |
| 专用 AI 加速器 | 自研架构,针对推理/训练优化 | 中 | 华为昇腾、寒武纪、燧原、昆仑芯、Google TPU |
| 云厂商自研芯片 | 服务自有业务,不对外销售 | 不适用 | 平头哥含光、腾讯紫霄、百度昆仑芯(部分) |
| 垂直场景芯片 | 面向特定终端或场景 | 高(或不适用) | 地平线征程、黑芝麻、Horizon、Apple Neural Engine |
通用 GPU 阵营
通用 GPU 是当前 AI 基础设施的主流选择。它们的核心优势是通用性和生态成熟度:一块卡既能跑训练又能跑推理,主流框架原生支持,容器化和 K8s 调度方案相对成熟。
NVIDIA 仍然占据绝对主导地位。H100/H200 和即将量产的 Blackwell B200 定义了训练和推理的性能标杆,CUDA 生态的护城河不是一年两年能填平的。在 Kubernetes 生态中,NVIDIA 提供了最完整的工具链:官方 Container Toolkit、Device Plugin、MIG 多实例支持,并且已经在推进 DRA 驱动。HAMi 对 NVIDIA GPU 的支持也最完善。对平台工程师来说,选 NVIDIA 意味着最低的集成风险,但代价是硬件成本和供应商锁定。
AMD 是最有力的替代选项。MI300X/MI325X 在显存容量和性价比上有竞争力,ROCm 软件栈近年来进步明显,PyTorch 官方支持已经比较完善。Kubernetes 集成方面,AMD 提供了官方 Device Plugin 和 ROCm 容器运行时,DRA 驱动正在开发中。主要短板在于 CUDA 兼容性——虽然 HIP 转换工具能用,但大型项目的迁移成本仍然不可忽视。
国产通用 GPU 厂商近几年进步很快,但工程成熟度和 NVIDIA 仍有明显差距。
摩尔线程(Moore Threads) 是国产厂商中特别值得关注的一个。它由前 NVIDIA 中国区总经理创立,是目前少数同时具备桌面和数据中心产品线的全功能 GPU 公司。苏堤/春晓架构已经迭代多代,MTT S3000 服务器显卡已在一些政企场景落地。摩尔线程构建了自主 MUSA 架构,兼容主流图形和计算 API,在 K8s 集成上通过自有 Device Plugin 和 HAMi 项目逐步接入。
沐曦科技(MetaX) 走的是“对标 AMD”的路线——由 AMD 前资深工程师团队创立,曦云 C500/C550 在 FP16/BF16 算力上达到 A100 同级区间,强调 CUDA 兼容性和高通用性,K8s 集成通过自有插件和 HAMi 接入。
壁仞科技(Biren Tech) 的 BR100 采用 Chiplet 架构,峰值算力参数亮眼(1024 TFLOPS BF16),但在实际交付和软件栈成熟度上还有距离。
天数智芯(Iluvatar CoreX) 是国内较早研发 7nm 通用 GPU 的企业,第二代产品“智铠 100”已推出,强调云端训练与推理场景。
这些国产厂商的共同挑战是 CUDA 生态兼容性和软件栈成熟度。从平台工程视角看,它们在 K8s 上的集成主要通过两种路径:自有 Device Plugin(基础调度)或 HAMi 项目(共享调度)。标准化程度和稳定性与 NVIDIA 相比还有明显差距,DRA 方案基本处于空白。
专用 AI 加速器阵营
这类芯片的特点是放弃通用性,针对 AI 计算做深度优化。它们通常不兼容 CUDA,提供自研软件栈,在特定场景下性能效率更高,但通用性和生态广度不如通用 GPU。
华为昇腾(Ascend) 是国内专用 AI 加速器中部署规模最大的。昇腾 910 系列已迭代多代,CANN 软件栈和 MindSpore 框架构成了完整的软件体系。昇腾的优势在于华为的系统性支持——从芯片到服务器到云服务到开发框架全栈覆盖,在信创和超算领域获得了大量部署。Kubernetes 集成方面,华为提供了专用 Device Plugin,支持静态和动态虚拟化,HAMi 已支持昇腾的共享调度。主要限制在于不兼容 CUDA,迁移成本高,且 DRA 驱动尚未公开。
寒武纪(Cambricon) 是国内 AI 芯片领域的先行者,出身中科院,2020 年科创板上市。思元 590 芯片已在大模型训练场景中大规模落地,阿里云通义大模型有采购寒武纪 MLU 芯片作为 GPU 替代。K8s 集成方面提供官方 Device Plugin,HAMi 已集成细粒度共享调度,但 DRA 驱动有待推进。
燧原科技(Enflame) 专注 AI 训练与推理,云燧训练系列和雨霁推理系列已迭代三代。技术路线偏向专用架构深度定制,获得腾讯投资,在腾讯云的推理场景有一定部署。
昆仑芯(Baidu Kunlun) 是百度自研的云端 AI 芯片,主要用于百度内部的大规模推理。虽然定位为通用 AI 芯片,但实际使用高度绑定百度生态,对外独立推广的力度有限。
Google TPU 是海外专用加速器的代表。TPU 不对外售卖硬件,只通过 Google Cloud 提供服务。它针对 Transformer 和 JAX/TensorFlow 做了深度优化,在大规模训练场景下有显著的性价比优势。对使用 Google Cloud 的团队来说,TPU 是值得评估的选项,但不适合需要多云部署或本地化训练的场景。在 Kubernetes 集成上,GKE 提供了原生的 TPU 支持,但社区标准的 Device Plugin 和 DRA 方案不适用于 TPU。
云厂商自研芯片阵营
这类芯片的特点是“不为卖而做,为己所用”。它们不进入公开市场销售,只服务于母公司的云服务或内部业务。
平头哥含光 是阿里巴巴达摩院自研的 AI 推理芯片,已大规模部署在阿里云的视觉 AI、搜索推荐等场景。含光 800 在推理吞吐和能效比上表现突出,但它不作为独立产品对外销售,外部用户只能通过阿里云的推理服务间接使用。
腾讯紫霄 是腾讯自研的 AI 推理芯片,服务于腾讯内部的游戏 AI、内容审核和推荐系统。和含光类似,不对外销售。
百度昆仑芯在前面已经提过,它的情况比较特殊——虽然是百度自研,但百度也在推动昆仑芯的外部商业化,所以它横跨“自研”和“专用加速器”两个象限。
对平台工程师来说,这类芯片的选型逻辑很简单:如果你深度使用某家云厂商的服务,可以评估其自研芯片通过云服务间接使用的性价比;如果你需要本地化部署或多云架构,这类芯片基本不在考虑范围内。
垂直场景芯片阵营
这类芯片面向非常具体的终端或场景,不直接参与数据中心的 GPU 竞争。
地平线(Horizon Robotics) 的“征程”系列车载 AI 芯片、黑芝麻智能(Black Sesame) 的汽车视觉芯片,服务于智能驾驶和车载计算。Apple Neural Engine 内置于 iPhone 和 Mac,服务端侧推理和终端 AI 体验。这些芯片的共同特点是:它们解决的是终端设备上的 AI 推理问题,和数据中心 GPU 是完全不同的赛道。
在 Kubernetes 集成上,这类芯片通常不需要也不适合接入 K8s 调度体系。它们的部署形态是嵌入式系统或边缘设备,而不是容器化集群。
Kubernetes 集成成熟度:一条横跨所有类型的评估线
无论芯片属于哪个类型,对平台工程师来说最实际的问题是:这块卡能不能跑通我现有的 K8s 体系?可以从三个层面来评估。
基础调度层:Device Plugin 是否可用。 这是最基本的要求——驱动能否在容器内正常工作、Device Plugin 能否向调度器报告设备数量、Pod 能否拿到正确的设备可见性。NVIDIA 在这一层做得最好,AMD/Intel 基本可用,国产厂商中昇腾和寒武纪有官方插件,其余厂商主要通过自有插件或 HAMi 接入。
共享与隔离层:是否支持细粒度资源切分。 当多租户需要共享 GPU 时,这一层决定了你能不能做。NVIDIA 有 MIG 硬件隔离、vGPU 软件虚拟化和时间片复用多种模式,HAMi 提供了统一的共享调度框架。AMD 的 SRIOV 部分可用,昇腾有虚拟化切分但方案封闭,其他国产厂商大多只有整卡分配。
控制面集成层:是否支持 DRA。 DRA 把设备分配从 kubelet 本地的 Allocate 黑盒提升到控制面可见的 ResourceClaim,这在 DRA 一章中已经详细分析。截至 2026 年初,只有 NVIDIA 的 CDI-based DRA 驱动进入了 beta 阶段,其他厂商基本处于观望或早期开发状态。DRA 成熟度将是未来一两年区分芯片生态的关键指标。
下面的速查表汇总了各厂商在这三个层面的支持情况,方便平台工程师在做芯片选型时快速对比。
| 厂商 | Device Plugin | 共享/隔离 | DRA 驱动 | HAMi 支持 |
|---|---|---|---|---|
| NVIDIA | 官方,成熟 | MIG/vGPU/时间片 | Beta(CDI-based) | 完善 |
| AMD | 官方,可用 | SRIOV 部分支持 | 开发中 | 有限 |
| Intel | 官方,可用 | 整卡直通为主 | 探索中 | 有限 |
| 华为昇腾 | 官方,可用 | 静态/动态虚拟化 | 未公开 | 已支持 |
| 寒武纪 | 官方,可用 | HAMi 集成 | 待推进 | 已支持 |
| 摩尔线程 | 自有插件 | HAMi 接入 | 未公开 | 部分支持 |
| 沐曦/壁仞/天数智芯 | 自有插件 | HAMi 接入 | 未公开 | 有限 |
| Google TPU | GKE 原生 | 按需切片 | 不适用(云托管) | 不适用 |
平台工程师的选型框架
面对这么多选择,平台工程师的决策不需要太复杂。
如果预算充足且需要最低集成风险,NVIDIA 仍然是默认选项。CUDA 生态的成熟度、K8s 集成的完整度、HAMi/DRA 的支持进度,都是最领先的。代价是硬件成本和供应商锁定。
如果需要降低对 NVIDIA 的依赖,AMD 是当前最现实的替代方案。ROCm 对 PyTorch 的支持已经足够生产使用,K8s 集成基本可用,性价比有优势。迁移成本主要在 CUDA → HIP 的代码适配。
如果受信创或政策要求必须用国产方案,需要根据具体场景选择。通用 GPU 中摩尔线程和沐曦的进展较快,专用加速器中昇腾的部署规模最大。但要做好心理准备:国产芯片的 K8s 集成方案仍在快速迭代中,你可能需要投入更多工程力量来处理兼容性和稳定性问题。
如果深度绑定某家云厂商,可以评估其自研芯片通过云服务间接使用的性价比。平头哥含光、腾讯紫霄都是这个模式,但不要指望能本地化部署。
如果做多芯片混合部署,这是 GPU 调度体系最有挑战也最有价值的场景。前面 异构加速器全景一章已经讨论过,未来的竞争不是谁 GPU 最多,而是谁最会调度异构芯片。DRA 的成熟、HAMi 的扩展、Volcano/Kueue 的异构支持,都在为这个方向铺路。
总结
AI 加速芯片生态不是一张简单的排行榜,而是一个多维坐标系。通用 GPU 提供最低的集成风险,专用 AI 加速器在特定场景下有更好的性价比,云厂商自研芯片只服务于母公司生态,垂直场景芯片走的是完全不同的赛道。对平台工程师来说,真正重要的不是谁融资多、谁估值高,而是这块芯片能不能接入你现有的 K8s 体系,以及接入的成本有多大。从这个角度看,DRA 的推进速度和 HAMi 的适配广度,将是未来一两年衡量芯片生态成熟度的关键指标。