AI Infra 行业趋势观察

从算力瓶颈到生态演进

宋净超 · CNCF Ambassador · 云原生社区创始人

2026 年 6 月

AI Infra 行业趋势观察 | Jimmy Song | 2026.06

关于我

背景

  • CNCF Ambassador,云原生社区创始人
  • 十年 + 基础设施与云原生经验
  • 聚焦 AI-Native InfrastructureGPU 虚拟化
  • 多家企业 AI Infra 架构咨询

关注方向

  • GPU 算力调度与虚拟化
  • 云原生 × AI 的技术融合
  • 开源生态与社区治理
  • AI Agent 基础设施
AI Infra 行业趋势观察 | Jimmy Song | 2026.06

今日议题

01

AI Infra 的核心瓶颈是否在变化?

算力、显存、网络、调度……瓶颈在迁移

02

CPU / GPU / 调度的真实角色

生产环境中各层次算力的定位

03

云原生 × 开源调度生态演进

从 Kubernetes 到 GPU 调度层的技术脉络

04

训练、推理、Agent 算力需求变化

不同场景下的资源特征与趋势

AI Infra 行业趋势观察 | Jimmy Song | 2026.06

01 AI Infra 核心瓶颈的演变

AI Infra 行业趋势观察 | Jimmy Song | 2026.06

瓶颈迁移路线

2023-2024:算力稀缺时代

  • 瓶颈 GPU 供给不足
  • 大模型训练需求爆发
  • H100 一卡难求
  • 算力即竞争力

2025-2026:效率瓶颈时代

  • 瓶颈 GPU 利用率低下
  • 全球 GPU 平均利用率 < 30%
  • 显存浪费严重
  • 调度策略缺失
核心转变:从"如何获得算力" → "如何用好算力"。这是整个行业正在经历的范式转换。
AI Infra 行业趋势观察 | Jimmy Song | 2026.06

当前三层瓶颈

🔩 硬件层

  • 显存墙:模型参数增长 > 显存增长
  • 互联带宽:多卡通信瓶颈
  • 异构碎片化:N 家芯片并存

📊 调度层

  • K8s 原生粒度太粗:只能整卡调度
  • 缺乏 GPU 感知:无法区分算力/显存
  • 多租户隔离缺失:共享风险高

🔄 应用层

  • 潮汐效应:推理白天高峰、夜间空闲
  • 混部冲突:训练与推理资源争夺
  • 弹性不足:无法按需扩缩
AI Infra 行业趋势观察 | Jimmy Song | 2026.06

瓶颈演变的趋势判断

阶段 时间 核心矛盾 解决方向
算力荒 2023-2024 有无问题 采购、云计算
利用率 2025-2026 效率问题 虚拟化、调度、共享
治理 2026+ 管理问题 算力治理、成本控制、可观测
判断:未来 2-3 年,算力治理将成为 AI Infra 的核心命题——不只是调度,还包括成本归因、使用审计、配额管理、多部门协调。
AI Infra 行业趋势观察 | Jimmy Song | 2026.06

02 CPU / GPU / 调度的真实角色

AI Infra 行业趋势观察 | Jimmy Song | 2026.06

CPU vs GPU:不是替代,是协同

CPU 的角色

  • 数据管道:ETL、预处理、特征工程
  • 控制面:API 网关、路由、编排
  • 轻量推理:小模型、规则引擎、Agent 调度
  • 存储与缓存:向量检索、KV Cache 管理

GPU 的角色

  • 训练:大规模矩阵运算
  • 推理加速:大模型推理的算力密集部分
  • 并行计算:批处理、embedding 生成
  • 特定负载:推理 Batch、长序列处理

关键洞察:生产环境中 CPU:GPU 比例通常为 4:1 ~ 8:1,两者缺一不可。

AI Infra 行业趋势观察 | Jimmy Song | 2026.06

调度层:被低估的关键一环

Kubernetes 原生局限

  • Device Plugin 只支持 整卡分配
  • 无显存/算力维度感知
  • 不支持 GPU 超配
  • 缺乏多租户隔离机制

调度层需要什么?

  • 细粒度切分:按算力/显存独立分配
  • 拓扑感知:NUMA、NVLink 亲和性
  • 优先级抢占:高优任务保障
  • 混部策略:训练/推理共存
  • 弹性扩缩:按需调整资源
一线观察:很多企业买了 GPU 集群后,第一步遇到的不是模型问题,而是"卡怎么分"的问题。调度层是 AI Infra 的"隐形战场"。
AI Infra 行业趋势观察 | Jimmy Song | 2026.06

GPU 虚拟化实践:以 HAMi 为例

核心能力

  • 算力 & 显存 独立隔离:多任务共享一张卡
  • 支持 10+ 款芯片:NVIDIA、昇腾、寒武纪等
  • Turbo 模式:接近原生性能运行
  • 显存弹性扩缩:OOM 自动扩容,无需重启
  • 丰富调度策略:Binpack / Spread / 优先级抢占

生产效果(公开案例)

  • 某头部银行:GPU 利用率 20% → 70%
  • 基石智算:单卡收入增长 3.15 倍
  • 某自动驾驶公司:利用率提升 200%
  • 支持 200+ 企业落地

HAMi 是 CNCF Sandbox 项目,开源社区 340+ 开发者贡献,覆盖 15+ 国家。

AI Infra 行业趋势观察 | Jimmy Song | 2026.06

03 云原生 × 开源调度生态

AI Infra 行业趋势观察 | Jimmy Song | 2026.06

从 Cloud Native 到 AI Native

Cloud Native 1.0

(2015-2022)

  • 容器化 & 微服务
  • Kubernetes 成为标准
  • 关注弹性、可观测
  • 应用 为中心

过渡期

(2023-2024)

  • GPU 成为一等资源
  • AI 工作负载特殊需求
  • 调度层扩展
  • 设备感知增强

AI Native

(2025+)

  • 算力为中心的调度
  • GPU 虚拟化成为标配
  • 不确定性成为常态
  • 算力 为中心
趋势:AI Native 不是推翻云原生,而是在云原生基础上增加算力治理层。Kubernetes 仍是底座,但调度语义从"应用调度"升级为"算力调度"。
AI Infra 行业趋势观察 | Jimmy Song | 2026.06

GPU 调度开源生态版图

项目 定位 成熟度 特点
HAMi GPU 虚拟化 & 调度 CNCF Sandbox 唯一专注 AI 异构调度
Volcano 批调度 CNCF 孵化 训练场景调度优化
KubeRay Ray 集群管理 CNCF 孵化 分布式训练编排
NVIDIA GPU Operator GPU 设备管理 生产就绪 NVIDIA 生态绑定
KubeVirt GPU 虚拟机 CNCF 孵化 整卡直通方案
观察:GPU 调度层正在从"NVIDIA 私有方案"走向开源、多云、多芯片的标准化方向。这是中国开源社区的重要贡献领域。
AI Infra 行业趋势观察 | Jimmy Song | 2026.06

CNCF CNAI 生态方向

关注领域

  • 算力调度:GPU/NPU 统一管理
  • 模型服务:推理框架标准化
  • 数据管道:训练数据高效流转
  • 可观测性:GPU 使用率、任务监控
  • 安全性:模型隔离、数据保护

标志性事件

  • CNCF 成立 CNAI Working Group(2024)
  • HAMi 进入 CNCF Sandbox
  • GPU 调度进入 CNAI Landscape
  • K8s 1.31+ 增强 DRA(动态资源分配)
  • 多芯片支持成为社区共识

CNAI Landscape 已收录 100+ 项目,涵盖训练、推理、调度、可观测全链路。

AI Infra 行业趋势观察 | Jimmy Song | 2026.06

04 训练 / 推理 / Agent 算力需求

AI Infra 行业趋势观察 | Jimmy Song | 2026.06

训练场景:算力密集型

资源特征

  • 长时间独占:任务运行数天 ~ 数周
  • 高显存需求:70B 模型需要 4-8 张 A100
  • 通信密集:梯度同步、AllReduce
  • 批处理模式:吞吐量优先

基础设施诉求

  • 高速互联:NVLink / InfiniBand
  • 拓扑感知调度:减少跨节点通信
  • Checkpoint 管理:容错恢复
  • 多租户隔离:防止训练任务互相干扰
趋势:大模型训练在向千卡万卡集群演进,对网络和调度提出了全新要求。未来中小模型的训练需求会更广泛,但不再是 H100 独占。
AI Infra 行业趋势观察 | Jimmy Song | 2026.06

推理场景:延迟敏感型

资源特征

  • 短时高频:毫秒级响应要求
  • 潮汐效应:日间高峰 vs 夜间低谷
  • 显存碎片化:多模型共存显存浪费
  • 弹性需求:流量波动要求快速扩缩

优化方向

  • GPU 共享:多模型共享一张卡
  • 显存超配:冷热数据分离
  • 动态 Batch:吞吐与延迟平衡
  • 模型量化:FP8/INT4 降低资源需求
  • Speculative Decoding:加速推理

推理场景是 GPU 虚拟化和共享技术的最大受益者。GPU 利用率可以从 20% 提升到 70%+。

AI Infra 行业趋势观察 | Jimmy Song | 2026.06

Agent 场景:事件驱动型(新范式)

资源特征

  • 长时间在线,间歇性调用
  • 调用链长:规划 → 工具 → 反思 → 再规划
  • 不可预测:用户意图决定计算量
  • 冷启动敏感:首次响应延迟

基础设施新需求

  • GPU 按需分配:用时不占,占时即用
  • 推理 + 工具执行混合编排
  • 状态管理:Agent 上下文持久化
  • MCP 服务生态:工具调用标准化
  • 成本控制:Agent 长期运行的成本治理
判断:Agent 场景将催生新一代调度范式——不再是"分配资源等任务",而是"任务驱动资源流动"。这对 GPU 调度的弹性提出了更高要求。
AI Infra 行业趋势观察 | Jimmy Song | 2026.06

三种场景对比

维度 训练 推理 Agent
GPU 占用模式 长时间独占 高频短时 间歇性突发
核心指标 吞吐量 (Tokens/s) 延迟 (TTFT/TPS) 弹性 (冷启动/成本)
显存需求 极高 (模型 + 梯度 + 优化器) 中等 (模型+KV Cache) 低 - 中 (按需加载)
调度策略 拓扑感知、独占 共享、Binpack、优先级 按需分配、弹性
瓶颈 互联带宽 延迟 & 利用率 冷启动 & 成本
GPU 虚拟化价值 极高 极高
AI Infra 行业趋势观察 | Jimmy Song | 2026.06

总结与展望

AI Infra 行业趋势观察 | Jimmy Song | 2026.06

四个核心判断

1️⃣ 瓶颈在迁移

从"算力稀缺"到"效率低下"再到"治理混乱"。算力治理将成为下一个核心命题。

2️⃣ 调度是关键

GPU 虚拟化和智能调度是当前性价比最高的投入方向——不需要买更多卡,只需用好已有的卡。

3️⃣ 开源生态加速

从 NVIDIA 私有方案到多云、多芯片、开源的标准化方向。中国社区贡献突出。

4️⃣ Agent 重塑需求

Agent 场景将催生新一代调度范式,GPU 按需流动将成为基础设施的标配能力。

AI Infra 行业趋势观察 | Jimmy Song | 2026.06

值得关注的趋势

  • 小模型崛起:蒸馏、量化让推理门槛大幅降低,GPU 需求从"少数人的奢侈品"变为"多数人的日用品"
  • 多模态统一:视觉、语音、文本统一模型,对 GPU 显存和带宽提出新要求
  • 边缘推理:端侧 AI 芯片成熟,部分推理从云端迁移到边缘
  • 算力市场化:GPU 云服务价格持续下降,算力交易市场逐步形成
  • 开源模型追赶闭源:Llama、Qwen、DeepSeek 等开源模型缩小差距,降低企业依赖
一句话总结:AI Infra 的竞争,正在从"谁拥有最多 GPU"转向"谁最会用 GPU"。效率、治理、生态将是决胜的关键。
AI Infra 行业趋势观察 | Jimmy Song | 2026.06

谢谢

宋净超 · CNCF Ambassador

jimmysong.io · 云原生社区

以上内容仅代表个人观点,基于公开信息与一线观察

AI Infra 行业趋势观察 | Jimmy Song | 2026.06

附录:推荐关注的开源项目

项目 领域 说明
HAMi GPU 虚拟化调度 CNCF Sandbox,唯一专注 AI 异构调度
vLLM 推理引擎 PagedAttention,高性能推理
SGLang 推理框架 结构化生成优化
Ray 分布式计算 训练与推理统一框架
Volcano 批调度 K8s 原生批量调度
Ollama 本地推理 简化本地模型部署
KubeRay Ray on K8s 分布式训练集群管理
DRA K8s 动态资源 上游原生 GPU 调度支持
AI Infra 行业趋势观察 | Jimmy Song | 2026.06

speaker-notes: 简要自我介绍:我是宋净超,CNCF Ambassador,云原生社区创始人。过去十年一直在做云原生和基础设施相关工作,近两年重心转向 AI Infrastructure。今天以个人视角分享一线观察。

speaker-notes: 今天围绕四个话题展开。这些都是一线实践中反复被问到的问题,没有标准答案,分享我的观察和思考。

speaker-notes: 进入第一个话题。AI Infra 的核心瓶颈这两年一直在变化,这是一个很有意思的观察。

speaker-notes: 2023-2024 年,核心瓶颈是算力不足——大家抢不到 GPU。但到了 2025-2026,情况变了:GPU 买到了,但利用率只有 20-30%。瓶颈从"有没有卡"变成了"卡用得好不好"。

speaker-notes: 具体来看,当前 AI Infra 存在三层瓶颈。底层是硬件层,主要是显存墙问题——模型越来越大,但显存增长跟不上。中间层是调度层,Kubernetes 原生不支持 GPU 细粒度调度。上层是应用层,训练推理混部、潮汐效应等问题凸显。

speaker-notes: 用一张趋势图来总结:瓶颈在从单点问题变成系统问题。以前只要买够卡就行,现在需要从硬件选型、调度策略、应用编排全链路优化。这也是为什么 GPU 虚拟化和调度技术变得如此重要。

speaker-notes: 第二个话题,关于 CPU、GPU 和调度在生产环境中的真实角色。

speaker-notes: 先澄清一个误区:AI 不是只需要 GPU。实际上在真实生产环境中,CPU 承担了大量工作——数据预处理、模型加载、API 服务、业务逻辑等。GPU 是加速器,不是万能替代。

speaker-notes: 调度层是连接应用需求和底层硬件的桥梁。在 K8s 环境中,GPU 调度的挑战在于——原生设备插件只能做整卡分配,无法做细粒度切分。这催生了 GPU 虚拟化技术的发展。

speaker-notes: 以 HAMi 为例说明 GPU 调度技术的实际效果。HAMi 是 CNCF 沙箱项目,也是目前唯一专注于 AI 异构算力调度的开源项目。它在 Kubernetes 上提供了 GPU 虚拟化能力,可以把一张物理 GPU 切分成多个虚拟 GPU。

speaker-notes: 第三个话题,云原生和开源调度生态的演进。

speaker-notes: 云原生生态正在向 AI 方向演进。CNCF 在 2024 年成立了 CNAI(Cloud Native AI)工作组,专门关注 AI 工作负载在云原生基础设施上的运行。这标志着 AI Infra 正式成为云原生生态的一等公民。

speaker-notes: 开源生态方面,目前 GPU 调度领域主要有几个项目:HAMi 是 CNCF 沙箱项目,专注于 GPU 虚拟化;KubeRay 管理 Ray 集群;Volcano 专注于批调度。这些项目形成了互补的生态。值得注意的是,国内在这个领域的贡献非常突出。

speaker-notes: CNAI(Cloud Native AI)是 CNCF 在 2024 年成立的工作组,我也有参与。它关注的核心问题就是:如何让 AI 工作负载在云原生基础设施上跑得更好。包括 GPU 调度、模型服务、数据管道等。

speaker-notes: 第四个话题,不同 AI 场景下的算力需求特征。训练、推理、Agent 是三种完全不同的负载模式,对基础设施的要求差异很大。

speaker-notes: 训练场景的特征是:长时间运行、独占 GPU、通信密集。一张 H100 训练一个 70B 模型可能需要几周。核心瓶颈是显存墙和多卡互联带宽。

speaker-notes: 推理是当前最主流的 GPU 使用场景。特点是:请求频率高、延迟敏感、有明显的潮汐效应。白天推理请求多,夜间几乎空闲。GPU 利用率波动巨大。

speaker-notes: Agent 是 2025-2026 年最热门的话题。Agent 的算力需求特征和训练、推理完全不同——它是长时间运行但大部分时间在等待,偶尔有突发的 LLM 调用。这更像传统的"在线服务"而不是"批量计算"。

speaker-notes: 把三个场景放在一起对比,差异非常明显。训练是重吞吐、推理是重延迟、Agent 是重弹性。这意味着不存在一个通用的 GPU 调度策略,需要根据场景做针对性优化。

speaker-notes: 最后做一个总结。

speaker-notes: 总结四个核心判断。

speaker-notes: 这些是我的个人观察和判断,基于一线实践和开源社区的参与。行业变化很快,保持学习和交流很重要。

speaker-notes: 备用页。如果时间允许可以展开讨论。