GPU 异构生态导引:国产格局、海外阵营与 K8s 支持

草稿

GPU 异构生态日新月异,但通过分层梳理国内外厂商与技术路线,我们仍能找到稳定的坐标系。掌握这张生态图谱,将帮助平台工程师在纷繁硬件选择中建立清晰直觉,并为后续 Kubernetes 异构调度治理打下基础。

中国 GPU 厂商分层生态图谱

近年来,国内 GPU 厂商快速发展,形成了头部、腰部和尾部三个层级。下文将按梯队梳理主要厂商,并标注其核心芯片、技术特点和资本背景,帮助读者建立整体认知。

下方结构化图谱以二维坐标系展示主要厂商在不同维度的定位,帮助读者快速建立整体认知。

图 1: GPU 厂商生态全景图:涵盖国内外主流 GPU 厂商的分层分类、产品特点及 Kubernetes 支持成熟度
图 1: GPU 厂商生态全景图:涵盖国内外主流 GPU 厂商的分层分类、产品特点及 Kubernetes 支持成熟度

该图谱以国内/国外为横向分组,以厂商地位为纵向层次,展示主要参与者。颜色深浅可代表 Kubernetes 兼容成熟度,节点形状可代表驱动开放性。

头部厂商(领先通用 GPU)

头部厂商在国产 GPU 生态中占据核心地位,具备较强的研发和资本实力。以下是主要代表:

  • 华为昇腾(Ascend) —— 华为旗下 AI 加速器系列,包括昇腾 310 推理芯片和昇腾 910 训练芯片。昇腾 910 于 2019 年发布,采用 7nm 工艺,单芯片提供 256 TFLOPS FP16 算力,搭载自研达芬奇架构和 32GB HBM 内存,定位高性能训练。华为为昇腾构建了配套 CANN 软件栈和 MindSpore 框架。技术路线上,昇腾与 CUDA 不兼容,采用自主指令集与编译器;容器支持通过 Ascend 设备插件及驱动实现。资本和生态方面,昇腾由华为主导,依托华为软硬件生态和鲲鹏/麒麟体系,在国内信创及超算中心获得重点部署支持。
  • 寒武纪(Cambricon) —— 出身中科院的 AI 芯片企业,以“思元(MLU)”系列芯片闻名。寒武纪早期为华为麒麟手机提供 NPU IP,后独立推出云端通用 AI 芯片思元 100/270/370 等。最新思元 590 芯片在大模型训练中大规模落地,2024 年营收达 11.74 亿元,同比增长 65%。技术上,寒武纪芯片采用自研架构并提供 Neuware 软件栈,支持主流深度学习框架但不直接兼容 CUDA。资本方面,寒武纪获阿里巴巴投资并于 2020 年科创板上市,是国内 AI 芯片第一股。阿里云在通义大模型中采购寒武纪 MLU 芯片作为 GPU 替代。
  • 沐曦科技(MetaX) —— 被称为“中国版 AMD”,成立于 2020 年,由多位 AMD 前资深工程师创立。沐曦专注高性能通用 GPU(GPGPU),2024 年量产主力芯片曦云 C500/C550,定位“训练推理一体”通用 GPU,FP16/BF16 算力已达到 NVIDIA A100 同级区间。技术路线强调 CUDA 兼容和高通用性,提供完整软件栈(MXStack)。资本上,沐曦于 2023 年科创板上市,首发募资 42 亿元,总市值超 3300 亿元。
  • 天数智芯(Iluvatar CoreX) —— 国内较早研发 7nm 通用 GPU 的企业。2021 年发布“Big Island”(BI)通用 GPU 芯片,峰值算力 147 TFLOPS FP16,定位对标英伟达数据中心 GPU。后续推出第二代“智铠 100”GPU,支持多精度计算和高带宽存储,强调云端高效训练与推理。资本背景包括国家大基金、上海市政府基金等。

腰部厂商(新兴通用/AI GPU)

腰部厂商多为新兴企业,技术路线各具特色,部分已上市或获得大厂投资。

  • 摩尔线程(Moore Threads) —— 国内首家全功能 GPU 公司,成立于 2020 年,由前英伟达中国区总经理创立。已发布“苏堤”和“春晓”架构,推出面向桌面和服务器的显卡产品 MTT S80、MTT S3000。摩尔线程构建了自主 MUSA 架构和驱动,支持主流 API,努力实现软硬件生态兼容。资本方面,摩尔线程获得字节跳动等投资并于 2023 年末科创板上市。
  • 壁仞科技(Biren Tech) —— 专注高性能通用 GPU,成立于 2019 年。2022 年发布旗舰芯片 BR100,采用 Chiplet 架构和 7nm 工艺,峰值达到 1024 TFLOPS BF16。软件栈支持主流 AI 框架和编译器,努力实现 CUDA 迁移。资本上,壁仞融资多轮,股东包括腾讯、国家集成电路大基金等。
  • 燧原科技(Enflame) —— 深耕 AI 训练与推理的定制芯片公司,成立于 2018 年。已发布三代产品,包括训练芯片“云燧”系列和推理芯片“雨霁”系列。燧原芯片采用专用架构深度定制 AI 计算,注重算力密度和能效。资本方面,燧原获得腾讯等投资,正在科创板上市辅导阶段。
  • 昆仑芯(Baidu Kunlun) —— 百度自研的云端 AI 芯片品牌,2018 年发布昆仑 1 代,2021 年推出昆仑 2 代,主要用于百度内部大规模推理和部分训练。采用自主 XPU 架构,支持百度飞桨框架和部分主流框架的适配。

尾部厂商(新入局者与垂直芯片)

尾部厂商包括初创团队和专注特定细分领域的 AI 芯片公司,产品多处于研发或小规模流片阶段。

  • 初创 GPU 团队:如南京的景嘉微、登临科技等,体量和影响力有限,产品尚未大规模商业化。
  • 专用领域芯片:如地平线(Horizon Robotics,推出“征程”系列车载 AI 芯片)、黑芝麻智能(Black Sesame,汽车视觉芯片)等,主要部署在本地设备或专用服务器中。
  • 互联网大厂自研:如阿里巴巴的含光 800、腾讯的“紫霄”AI 芯片等,通常服务于自家业务,未形成通用 GPU 生态。

整体来看,头部厂商提供了国内 GPU 算力的中坚力量,腰部厂商各具特色,尾部及垂直玩家丰富了生态多样性。技术路径上,有的追求 CUDA 生态兼容,有的专注定制算力。中国 GPU 生态正逐步形成从通用到专用的完整谱系。

国外 GPU 厂商主要阵营

国际市场上,GPU/AI 加速硬件格局相对成熟,主要分为三大传统巨头阵营和一批新兴专用加速器厂商。下文将介绍其代表性产品与生态特点。

主流 GPU 厂商

  • NVIDIA —— AI 计算领域的领导者。NVIDIA 的 GPU(如 A100、H100 系列)已成为深度学习训练的事实标准。H100(Hopper 架构)GPU 提供高达 1000+ TFLOPS FP16/BF16 算力,配备高速 HBM 显存和 NVLink 互连。NVIDIA 构建了强大的 CUDA 生态,CUDA 库和开发工具被所有主流深度学习框架原生支持。还提供 TensorRT、NCCL、vLLM 等软件工具。MIG 技术支持 GPU 实例化,方便在 Kubernetes 等平台以更细粒度调度。
  • AMD —— GPU 市场的重要参与者。AMD 的 Instinct 加速卡(MI 系列)专注数据中心 AI 训练,最新 MI300X 集成 CPU+GPU 异构架构。AMD 推出 ROCm 开发套件以对应 CUDA,支持主流深度学习框架。优势在于开放的驱动和工具链以及性价比潜力,劣势在于生态相对薄弱。
  • Intel —— CPU 巨头发力 GPU 及 AI 加速领域。推出数据中心 GPU Flex 系列和 Ponte Vecchio GPU。收购 Habana Labs 带来 Gaudi AI 训练处理器。Intel 的 oneAPI 生态支持 CPU、GPU、FPGA 融合编程,OpenVINO 工具优化推理部署。Intel 以开放源代码和标准为策略,积极主导 SYCL 等开放规范。

新兴专用加速器

新兴专用加速器公司推出与 GPU 不同架构的芯片,主攻特定细分场景。以下为主要代表:

  • Tenstorrent —— 由 Jim Keller 掌舵,采用 RISC-V CPU 加片上神经网络单元,强调开源生态,支持 PyTorch 等模型部署。
  • Groq —— 由谷歌 TPU 团队成员创立,特色在于极致低延迟 AI 推理,采用 TSP 体系结构,通过编译时确定执行顺序实现毫秒级延迟。
  • Cerebras —— 以“晶圆级芯片”闻名,WSE-2 拥有 85 万个 AI 核心和 40GB 片上 SRAM 存储,适合超大模型训练。
  • Graphcore —— 推出 IPU(Intelligence Processing Unit)架构,专为大规模并行计算设计,适合稀疏模型和图神经网络。

这些新兴厂商在特定场景下提供了 GPU 之外的多元方案,推动 AI 硬件多样化。

Kubernetes 中的 GPU 支持现状

在异构硬件云原生化趋势下,各类 GPU 和加速芯片如何融入 Kubernetes(K8s)平台成为平台工程师关注的重点。下文梳理主流 GPU/芯片在 K8s 中的支持现状,包括容器运行时、设备插件、Operator、HAMi 兼容及 DRA(Dynamic Resource Allocation)驱动等方面。

  • NVIDIA GPU:K8s 支持度较高。NVIDIA 提供官方 Container Toolkit 和 K8s Device Plugin,支持 GPU 资源透明调度。MIG 技术支持实例化,HAMi 项目支持多种虚拟化模式。NVIDIA 积极推动 DRA 驱动,提升资源抽象能力。
  • AMD GPU:近年来进步显著。AMD 提供 ROCm 软件栈和 K8s Device Plugin,支持资源调度。虚拟化与共享能力正在完善,HAMi 兼容性有待提升,DRA 驱动尚未发布。
  • Intel GPU/加速器:早期支持较为完备,专注异构融合。提供 Device Plugin 和 Operator,支持 OpenVINO 集成。HAMi/DRA 方案仍在探索中,当前以整卡直通为主。
  • 华为昇腾(Ascend):K8s 支持逐步完善。提供专用 device plugin,支持静态和动态虚拟化。HAMi 已支持昇腾系列共享调度,DRA 计划尚未公开。
  • 寒武纪 MLU:官方提供 K8s 设备插件,支持整卡调度和健康探测。HAMi 集成细粒度共享,DRA 驱动有待推进。
  • 其他国产 GPU(沐曦、壁仞、天数、摩尔线程等):主要通过自有设备插件或 HAMi 项目支持 K8s,标准化程度有待提升,DRA 方案尚未普及。

整体来看,NVIDIA 在 K8s 上的支持最为完善,AMD/Intel 基本可用,国产方案逐步接入。未来 K8s 原生异构支持将进一步减少集成差异,提升异构集群运维和调度效率。

总结

本文系统梳理了国内外 GPU 厂商生态、技术路线及其在 Kubernetes 平台的支持现状。国产 GPU 生态呈现梯队化,头部厂商具备高性能芯片和资本背书,腰部厂商快速成长,尾部及垂直领域不断探索专用加速方案。国外阵营由 NVIDIA 主导,AMD、Intel 通过开放生态形成竞争,新兴加速器提供多元方案。Kubernetes 支持方面,NVIDIA 方案最成熟,AMD/Intel 基本可用,国产方案逐步接入。未来,K8s 原生异构支持将进一步提升异构集群的运维和调度能力。平台工程师应结合自身业务需求,基于结构化认知,科学选型并优化异构算力管理策略。

创建于 2025/12/31 更新于 2025/12/31 3690 字 阅读约 8 分钟