AI Infra 行业趋势观察

阶段	时间	核心矛盾	解决方向
算力荒	2023-2024	有无问题	采购、云计算
利用率	2025-2026	效率问题	虚拟化、调度、共享
治理	2026+	管理问题	算力治理、成本控制、可观测

项目	定位	成熟度	特点
HAMi	GPU 虚拟化 & 调度	CNCF Sandbox	唯一专注 AI 异构调度
Volcano	批调度	CNCF 孵化	训练场景调度优化
KubeRay	Ray 集群管理	CNCF 孵化	分布式训练编排
NVIDIA GPU Operator	GPU 设备管理	生产就绪	NVIDIA 生态绑定
KubeVirt	GPU 虚拟机	CNCF 孵化	整卡直通方案

维度	训练	推理	Agent
GPU 占用模式	长时间独占	高频短时	间歇性突发
核心指标	吞吐量 (Tokens/s)	延迟 (TTFT/TPS)	弹性 (冷启动/成本)
显存需求	极高 (模型 + 梯度 + 优化器)	中等 (模型+KV Cache)	低 - 中 (按需加载)
调度策略	拓扑感知、独占	共享、Binpack、优先级	按需分配、弹性
瓶颈	互联带宽	延迟 & 利用率	冷启动 & 成本
GPU 虚拟化价值	中	极高	极高

项目	领域	说明
HAMi	GPU 虚拟化调度	CNCF Sandbox，唯一专注 AI 异构调度
vLLM	推理引擎	PagedAttention，高性能推理
SGLang	推理框架	结构化生成优化
Ray	分布式计算	训练与推理统一框架
Volcano	批调度	K8s 原生批量调度
Ollama	本地推理	简化本地模型部署
KubeRay	Ray on K8s	分布式训练集群管理
DRA	K8s 动态资源	上游原生 GPU 调度支持

speaker-notes: 简要自我介绍：我是宋净超，CNCF Ambassador，云原生社区创始人。过去十年一直在做云原生和基础设施相关工作，近两年重心转向 AI Infrastructure。今天以个人视角分享一线观察。

speaker-notes: 今天围绕四个话题展开。这些都是一线实践中反复被问到的问题，没有标准答案，分享我的观察和思考。

speaker-notes: 进入第一个话题。AI Infra 的核心瓶颈这两年一直在变化，这是一个很有意思的观察。

speaker-notes: 2023-2024 年，核心瓶颈是算力不足——大家抢不到 GPU。但到了 2025-2026，情况变了：GPU 买到了，但利用率只有 20-30%。瓶颈从"有没有卡"变成了"卡用得好不好"。

speaker-notes: 具体来看，当前 AI Infra 存在三层瓶颈。底层是硬件层，主要是显存墙问题——模型越来越大，但显存增长跟不上。中间层是调度层，Kubernetes 原生不支持 GPU 细粒度调度。上层是应用层，训练推理混部、潮汐效应等问题凸显。

speaker-notes: 用一张趋势图来总结：瓶颈在从单点问题变成系统问题。以前只要买够卡就行，现在需要从硬件选型、调度策略、应用编排全链路优化。这也是为什么 GPU 虚拟化和调度技术变得如此重要。

speaker-notes: 第二个话题，关于 CPU、GPU 和调度在生产环境中的真实角色。

speaker-notes: 先澄清一个误区：AI 不是只需要 GPU。实际上在真实生产环境中，CPU 承担了大量工作——数据预处理、模型加载、API 服务、业务逻辑等。GPU 是加速器，不是万能替代。

speaker-notes: 调度层是连接应用需求和底层硬件的桥梁。在 K8s 环境中，GPU 调度的挑战在于——原生设备插件只能做整卡分配，无法做细粒度切分。这催生了 GPU 虚拟化技术的发展。

speaker-notes: 以 HAMi 为例说明 GPU 调度技术的实际效果。HAMi 是 CNCF 沙箱项目，也是目前唯一专注于 AI 异构算力调度的开源项目。它在 Kubernetes 上提供了 GPU 虚拟化能力，可以把一张物理 GPU 切分成多个虚拟 GPU。

speaker-notes: 第三个话题，云原生和开源调度生态的演进。

speaker-notes: 云原生生态正在向 AI 方向演进。CNCF 在 2024 年成立了 CNAI（Cloud Native AI）工作组，专门关注 AI 工作负载在云原生基础设施上的运行。这标志着 AI Infra 正式成为云原生生态的一等公民。

speaker-notes: 开源生态方面，目前 GPU 调度领域主要有几个项目：HAMi 是 CNCF 沙箱项目，专注于 GPU 虚拟化；KubeRay 管理 Ray 集群；Volcano 专注于批调度。这些项目形成了互补的生态。值得注意的是，国内在这个领域的贡献非常突出。

speaker-notes: CNAI（Cloud Native AI）是 CNCF 在 2024 年成立的工作组，我也有参与。它关注的核心问题就是：如何让 AI 工作负载在云原生基础设施上跑得更好。包括 GPU 调度、模型服务、数据管道等。

speaker-notes: 第四个话题，不同 AI 场景下的算力需求特征。训练、推理、Agent 是三种完全不同的负载模式，对基础设施的要求差异很大。

speaker-notes: 训练场景的特征是：长时间运行、独占 GPU、通信密集。一张 H100 训练一个 70B 模型可能需要几周。核心瓶颈是显存墙和多卡互联带宽。

speaker-notes: 推理是当前最主流的 GPU 使用场景。特点是：请求频率高、延迟敏感、有明显的潮汐效应。白天推理请求多，夜间几乎空闲。GPU 利用率波动巨大。

speaker-notes: Agent 是 2025-2026 年最热门的话题。Agent 的算力需求特征和训练、推理完全不同——它是长时间运行但大部分时间在等待，偶尔有突发的 LLM 调用。这更像传统的"在线服务"而不是"批量计算"。

speaker-notes: 把三个场景放在一起对比，差异非常明显。训练是重吞吐、推理是重延迟、Agent 是重弹性。这意味着不存在一个通用的 GPU 调度策略，需要根据场景做针对性优化。

speaker-notes: 最后做一个总结。

speaker-notes: 总结四个核心判断。

speaker-notes: 这些是我的个人观察和判断，基于一线实践和开源社区的参与。行业变化很快，保持学习和交流很重要。

AI Infra 行业趋势观察

从算力瓶颈到生态演进

关于我

背景

关注方向

今日议题

01

02

03

04

01 AI Infra 核心瓶颈的演变

瓶颈迁移路线

2023-2024：算力稀缺时代

2025-2026：效率瓶颈时代

当前三层瓶颈

硬件层

调度层

应用层

瓶颈演变的趋势判断

02 CPU / GPU / 调度的真实角色

CPU vs GPU：不是替代，是协同

CPU 的角色

GPU 的角色

调度层：被低估的关键一环

Kubernetes 原生局限

调度层需要什么？

GPU 虚拟化实践：以 HAMi 为例

核心能力

生产效果（公开案例）

03 云原生 × 开源调度生态

从 Cloud Native 到 AI Native

Cloud Native 1.0

过渡期

AI Native

GPU 调度开源生态版图

CNCF CNAI 生态方向

关注领域

标志性事件

04 训练 / 推理 / Agent 算力需求

训练场景：算力密集型

资源特征

基础设施诉求

推理场景：延迟敏感型

资源特征

优化方向

Agent 场景：事件驱动型（新范式）

资源特征

基础设施新需求

三种场景对比

总结与展望

四个核心判断

瓶颈在迁移

调度是关键

开源生态加速

Agent 重塑需求

值得关注的趋势

谢谢

附录：推荐关注的开源项目