speaker-notes: 简要自我介绍:我是宋净超,CNCF Ambassador,云原生社区创始人。过去十年一直在做云原生和基础设施相关工作,近两年重心转向 AI Infrastructure。今天以个人视角分享一线观察。
speaker-notes: 今天围绕四个话题展开。这些都是一线实践中反复被问到的问题,没有标准答案,分享我的观察和思考。
speaker-notes: 进入第一个话题。AI Infra 的核心瓶颈这两年一直在变化,这是一个很有意思的观察。
speaker-notes: 2023-2024 年,核心瓶颈是算力不足——大家抢不到 GPU。但到了 2025-2026,情况变了:GPU 买到了,但利用率只有 20-30%。瓶颈从"有没有卡"变成了"卡用得好不好"。
speaker-notes: 具体来看,当前 AI Infra 存在三层瓶颈。底层是硬件层,主要是显存墙问题——模型越来越大,但显存增长跟不上。中间层是调度层,Kubernetes 原生不支持 GPU 细粒度调度。上层是应用层,训练推理混部、潮汐效应等问题凸显。
speaker-notes: 用一张趋势图来总结:瓶颈在从单点问题变成系统问题。以前只要买够卡就行,现在需要从硬件选型、调度策略、应用编排全链路优化。这也是为什么 GPU 虚拟化和调度技术变得如此重要。
speaker-notes: 第二个话题,关于 CPU、GPU 和调度在生产环境中的真实角色。
speaker-notes: 先澄清一个误区:AI 不是只需要 GPU。实际上在真实生产环境中,CPU 承担了大量工作——数据预处理、模型加载、API 服务、业务逻辑等。GPU 是加速器,不是万能替代。
speaker-notes: 调度层是连接应用需求和底层硬件的桥梁。在 K8s 环境中,GPU 调度的挑战在于——原生设备插件只能做整卡分配,无法做细粒度切分。这催生了 GPU 虚拟化技术的发展。
speaker-notes: 以 HAMi 为例说明 GPU 调度技术的实际效果。HAMi 是 CNCF 沙箱项目,也是目前唯一专注于 AI 异构算力调度的开源项目。它在 Kubernetes 上提供了 GPU 虚拟化能力,可以把一张物理 GPU 切分成多个虚拟 GPU。
speaker-notes: 第三个话题,云原生和开源调度生态的演进。
speaker-notes: 云原生生态正在向 AI 方向演进。CNCF 在 2024 年成立了 CNAI(Cloud Native AI)工作组,专门关注 AI 工作负载在云原生基础设施上的运行。这标志着 AI Infra 正式成为云原生生态的一等公民。
speaker-notes: 开源生态方面,目前 GPU 调度领域主要有几个项目:HAMi 是 CNCF 沙箱项目,专注于 GPU 虚拟化;KubeRay 管理 Ray 集群;Volcano 专注于批调度。这些项目形成了互补的生态。值得注意的是,国内在这个领域的贡献非常突出。
speaker-notes: CNAI(Cloud Native AI)是 CNCF 在 2024 年成立的工作组,我也有参与。它关注的核心问题就是:如何让 AI 工作负载在云原生基础设施上跑得更好。包括 GPU 调度、模型服务、数据管道等。
speaker-notes: 第四个话题,不同 AI 场景下的算力需求特征。训练、推理、Agent 是三种完全不同的负载模式,对基础设施的要求差异很大。
speaker-notes: 训练场景的特征是:长时间运行、独占 GPU、通信密集。一张 H100 训练一个 70B 模型可能需要几周。核心瓶颈是显存墙和多卡互联带宽。
speaker-notes: 推理是当前最主流的 GPU 使用场景。特点是:请求频率高、延迟敏感、有明显的潮汐效应。白天推理请求多,夜间几乎空闲。GPU 利用率波动巨大。
speaker-notes: Agent 是 2025-2026 年最热门的话题。Agent 的算力需求特征和训练、推理完全不同——它是长时间运行但大部分时间在等待,偶尔有突发的 LLM 调用。这更像传统的"在线服务"而不是"批量计算"。
speaker-notes: 把三个场景放在一起对比,差异非常明显。训练是重吞吐、推理是重延迟、Agent 是重弹性。这意味着不存在一个通用的 GPU 调度策略,需要根据场景做针对性优化。
speaker-notes: 这些是我的个人观察和判断,基于一线实践和开源社区的参与。行业变化很快,保持学习和交流很重要。
speaker-notes: 备用页。如果时间允许可以展开讨论。