在阿姆斯特丹的第一天:Kubernetes 正在重新理解 AI

KubeCon Europe 2026 第一日观察:Kubernetes 如何适应 AI 基础设施浪潮,以及 GPU 资源层的演进趋势。

今天是我在 KubeCon Europe 2026 的第一天。

图 1: Jimmy 在 KubeCon EU 2026 的第一天
图 1: Jimmy 在 KubeCon EU 2026 的第一天

一个很强烈的感受是:

世界很大,但这个圈子真的很小。

老朋友、新周期

在 Maintainer Summit 现场,我见到了很多“老面孔”——

有蚂蚁的同事,也有来自 Tetrate 的朋友,还有一些已经认识接近十年的人。我们从早期的 Kubernetes、Service Mesh、云原生基础设施一路走到今天。

某种意义上,这一代人,是完整经历了:

  • Kubernetes 崛起
  • Cloud Native 标准化
  • 微服务与服务网格热潮
  • 再到今天的 AI Infrastructure

这不是一次“新的人进场”,而更像是——

同一批人,进入了一个新的技术周期。

Maintainer Summit 在讨论什么?

如果你问一个问题:

Kubernetes 社区现在最关心什么?

今天的答案其实非常明确:

👉 如何让 AI Workloads 更好地运行在 Kubernetes 上

图 2: Maintainer Summit 的主题就是 AI Infra
图 2: Maintainer Summit 的主题就是 AI Infra

在 Maintainer Summit 上,讨论的很多议题都围绕:

  • LLM / AI workloads 的调度模型
  • GPU / 加速器资源管理
  • 推理(inference)系统与 Kubernetes 的结合
  • 数据面 vs 控制面的重新分工
  • 可观测性如 OTel 如何观测 AI 负载

换句话说:

Kubernetes 并没有被 AI 替代,而是在主动“吸收”AI。

重要的信号:GPU 正在变成“基础设施层”

今天和 CNCF TOC、Red Hat、以及 vLLM 社区有一场很深入的交流。

我们聊的核心问题其实只有一个:

GPU 应该如何被“平台化”?

一些共识已经非常清晰:

  • GPU 不再只是一个 device
  • 而是一个 可以被调度、被切分、被共享的资源层
图 3: TOC meeting 上讨论 GPU 资源管理与 LLM Serving 融合
图 3: TOC meeting 上讨论 GPU 资源管理与 LLM Serving 融合

在阿姆斯特丹的 Maintainer Summit 上,我们与 CNCF TOC、Red Hat 和 vLLM 社区围绕 Kubernetes 场景下的 GPU 资源管理与 LLM Serving 融合进行了深入交流,并探讨了 vLLM + HAMi 的潜在联合内容与后续协作。

这背后其实是一个很大的范式转移:

过去现在
GPU = 节点资源GPU = 基础设施层
独占多租户共享
静态绑定动态调度
框架内部管理平台层统一管理

而这正是我们在 HAMi 里一直在做的事情。

HAMi:从“项目”到“参考样本”

今天还有一个比较有意思的变化是:

HAMi 不再只是一个“社区项目”,而是开始被当成:

一个 AI Infra 方向的参考实现(reference pattern)

图 4: 「Dynamia 密瓜智能」CTO 李孟轩在 KubeCon EU 2026 Maintainer Summit 上分享 HAMi 的设计理念和实践经验
图 4: 「Dynamia 密瓜智能」CTO 李孟轩在 KubeCon EU 2026 Maintainer Summit 上分享 HAMi 的设计理念和实践经验

这体现在几个地方:

  • 被邀请参与 Maintainer Summit 的项目分享
  • 参与 CNCF TOC 的讨论
  • 参与 incubating review demo
  • 和 vLLM 社区探讨联合内容(甚至已经在聊 joint blog 👀)

尤其是在和 Red Hat、vLLM 的交流中,有一个趋势非常明显:

GPU resource management 和 LLM serving 正在发生耦合

也就是说:

  • 上层:vLLM / 推理框架
  • 下层:GPU scheduling / sharing

正在逐渐形成一个“接口面”。

这会是一个很值得下注的方向。

图 5: TAG Workshop 上,HAMi 被当作 Incubating demo 来讨论
图 5: TAG Workshop 上,HAMi 被当作 Incubating demo 来讨论

值得警惕:AI Infra 创业还没真正爆发

但同时,我也有一个稍微“反直觉”的观察:

还没有看到大规模“AI Infra(K8s 方向)创业浪潮”。

今天看到的大部分公司:

  • 很多是从 CI/CD / Service Mesh / Gateway 转型
  • 很多是传统云厂商延展 AI 能力
  • 很多在做模型、Agent、或者更底层的东西

但真正 focused 在:

“让 AI workload 在 Kubernetes 上运行得更好”

这一层的创业公司,其实还不多。

这可能意味着两件事:

1)这个层还没 Fully formed

现在更多是在:

  • 模型层(LLM / foundation model)
  • 应用层(Agent / Copilot)

而不是:

  • 调度层
  • 资源层
  • runtime 层

2)或者,这一层门槛很高

因为它本质上是:

Cloud Native × GPU × AI workload 的交叉领域

不是简单的“套壳 AI”,而是基础设施级别的重构。

我的判断

如果把整个 AI 技术栈分层来看:

Agent / Application
LLM Serving (vLLM, etc.)
AI Runtime / Scheduling
GPU Resource Layer
Hardware

那么今天大多数创新集中在:

  • 上两层(Agent / LLM)

但真正长期壁垒在:

  • 中间两层(Runtime + Resource Layer)

而 Kubernetes,很可能会继续成为:

这个中间层的默认承载平台

最后

今天的总结是:

Kubernetes 并没有过时,它正在被重新定义。

而我们这一代人,也正在从:

“Cloud Native Builders”

转向:

“AI Infrastructure Builders”

明天继续。

宋净超(Jimmy Song)

宋净超(Jimmy Song)

专注于 AI 原生基础设施与云原生应用架构的研究与开源实践。

文章导航

评论区