异构加速器全景:从 CPU 到 LPU
很多团队一聊 AI 基础设施,第一反应就是"是不是该多买点 GPU"。到了 2026 年,这个问题已经过时了。真正成熟的 AI 系统,不是押注单一算力,而是运行在一套异构芯片组合之上——CPU 负责控制与编排,GPU 负责训练与高吞吐推理,TPU 负责垂直优化的张量计算,NPU 负责端侧低功耗 AI,DPU 负责网络、安全与基础设施卸载,APU 负责统一内存协同计算,LPU 负责低延迟语言生成。未来的竞争,不是谁 GPU 最多,而是谁最会调度这些不同的芯片。
为什么会出现这么多"PU"
本质原因只有一个:计算需求的增长速度,已经超过了通用芯片单一路线能承载的效率边界。过去 CPU 可以解决大部分问题,后来深度学习来了,矩阵计算爆发,GPU 崛起。再后来,边缘 AI、低延迟推理、数据中心网络瓶颈、多租户隔离,又催生了新的专用处理器。所以这些芯片不是营销产物,而是系统压力层层递进的结果。
七类芯片速查表
| 缩写 | 全称 | 擅长什么 | 典型场景 | 最常见误用 |
|---|---|---|---|---|
| CPU | Central Processing Unit | 通用计算、复杂逻辑 | 控制面、预处理、调度 | 拿来硬扛大模型计算 |
| GPU | Graphics Processing Unit | 并行矩阵计算 | 训练、批量推理 | 用来做低并发强实时对话 |
| TPU | Tensor Processing Unit | 张量计算加速 | Google Cloud 训练/推理 | 当作通用 GPU 使用 |
| NPU | Neural Processing Unit | 低功耗推理 | AI PC、手机、边缘设备 | 拿来做训练 |
| DPU | Data Processing Unit | 网络/存储卸载 | 大规模 AI 集群 | 小规模场景过度建设 |
| APU | Accelerated Processing Unit | CPU+GPU 紧耦合 | 单机微调、HPC | 只看 FLOPS 忽略内存优势 |
| LPU | Language Processing Unit | 低延迟语言生成 | 实时 Agent、语音 AI | 当通用训练芯片 |
CPU:系统的大脑,不是主力算力
CPU 的强项一直没变——分支判断、多任务调度、I/O 管理、数据预处理、Tokenizer、Agent workflow orchestration。它擅长的是决定"下一步做什么",而不是"把同一个乘加动作重复几十亿次"。所以在 AI 系统里,CPU 更像控制平面,负责 Kubernetes 调度、推理前后处理、检索与数据库访问、工具调用编排这些事。很多人把 CPU 看轻了,但没有 CPU,GPU 集群往往也跑不顺。
GPU:AI 时代的主力发动机
GPU 赢在一件事情上:大规模并行矩阵计算。Transformer、CNN、Embedding,本质上都依赖矩阵乘法,GPU 用数千核心加上 HBM 和 Tensor Core 把这件事做到极致。今天 GPU 仍然是大模型训练的默认选择、云上 AI 的默认资源和通用推理的默认方案。但 GPU 也有现实问题。
利用率经常被高估。 很多企业买了一堆 GPU,真实利用率并不高,原因包括作业碎片化、多租户抢占、调度不合理、模型显存不匹配、空闲资源无法复用。
GPU 越多,调度越难。 从单机到多节点再到异构卡池,复杂度指数级上升。这也是为什么 GPU 时代的真正价值层开始从硬件转向调度系统。
GPU 不是天然适合低延迟交互。 单用户实时对话、语音 Agent、低 batch 请求,并不是 GPU 最舒服的工作模式。
TPU:Google 的垂直算力路线
Google TPU 的逻辑非常明确:放弃通用性,换取特定任务的极致效率。它针对 Transformer、JAX/TensorFlow 和 Google Cloud 内部生态做了深度优化。TPU 更像一整套平台能力,而不是单独一块卡,适合大规模训练、高密度 serving 以及深度绑定 Google Cloud 的团队。不适合任意框架迁移、本地部署或者需要高自由度的实验环境。TPU 强,但它的边界也很清晰。
NPU:端侧 AI 的真正主角
很多人谈 AI 只看数据中心,但未来调用次数最多的 AI 很可能发生在手机、PC、耳机、眼镜和汽车这些设备上。这些设备最重要的约束不是算力,而是电池、发热、响应速度和本地隐私,NPU 正是为这些约束而生的。它负责实时字幕、背景虚化、本地 Copilot、语音助手和图像增强这些功能。所谓 AI PC,本质不是 PC 加 AI,而是 NPU 进入个人计算设备。
DPU:被低估的数据中心关键角色
很多 GPU 集群的问题不在 GPU,而在网络瓶颈、RDMA 管理、存储 I/O、安全隔离、East-West 流量和加密开销。DPU 的意义就是把基础设施负担从 CPU 身上剥离出去。NVIDIA BlueField 系列是典型代表。几十卡以下的规模感受不明显,但到了几百卡以上,这会变成真实成本问题。
APU:统一内存的另一条路线
很多人看芯片只看 FLOPS,这是旧时代思维。现实中大量性能浪费在数据搬运上——CPU 内存一份、GPU 显存一份,PCIe 来回复制、同步等待。APU 的价值在于 CPU 和 GPU 紧耦合、共享地址空间、减少数据复制,更适合单机训练与微调。AMD MI300A 和 Apple Silicon Unified Memory 是代表路线,很多本地 AI 工作站未来会越来越重视这条方向。
LPU:语言模型专用芯片的实验方向
Groq 提出的 LPU,本质是在赌一条假设:LLM 推理是一条可被高度流水线化的固定路径。它强调 token generation latency、deterministic execution、极低 jitter 和实时语音交互。如果你做的是实时 AI assistant、Voice agent 或高频文本生成,这类芯片路线值得关注。但它仍然是推理特化路线,不是 GPU 替代品。
按工作负载选芯片
选择芯片其实很直接:做训练优先 GPU;做低成本大规模云训练评估 TPU;做端侧产品优先 NPU;做超大规模 AI 集群必须考虑 DPU;做单机微调或本地 AI 看统一内存 APU;做低延迟对话系统评估 LPU;做系统编排,CPU 永远在场。
调度异构芯片是云原生的下一阶段
过去 Kubernetes 调度的是 CPU 和 Memory,后来加上了 GPU,未来会扩展到 GPU memory、topology、NUMA、tokens/sec、latency SLA、NPU slots、heterogeneous accelerators 和 power budget。这意味着 Kubernetes 正在从容器编排器进化为 AI Control Plane,而异构芯片时代,资源调度层会越来越重要。
别再迷信单卡性能榜
很多人还在纠结 H100 强还是 B200 强、TPU 值不值、NPU TOPS 高不高。这些问题当然有价值,但都不是核心问题。真正的问题是:你的系统是否让正确的任务跑在正确的芯片上。未来赢家不是买最多卡的人,而是最会组织算力的人。