KubeCon EU 2025:塑造云原生格局的洞察与趋势

对伦敦云原生社区年度盛会的全面分析

2025 年 4 月 1 日至 4 日 英国,伦敦,ExCeL 会议中心 12,500+ 参会者

活动概览

KubeCon + CloudNativeCon Europe 2025 于 2025 年 4 月 1 日至 4 日在伦敦 ExCeL 会议中心成功举办,吸引了超过 12,500 名云原生爱好者、开发者、运维人员和行业相关者参会。作为云原生计算基金会(CNCF)最重要的旗舰大会,该活动已成为 Kubernetes 生态系统及更广泛云原生社区的核心聚会平台。

今年的大会共设置了 200 多场会议、多个子会场和工作坊,全面展现了云原生领域的迅猛发展和成熟趋势。会议重点关注 AI 集成、安全性提升和平台工程实践,充分展示了 Kubernetes 如何从一个容器编排平台,发展为现代应用开发和基础设施管理的基石。

会议亮点:

  • 8 个主要技术方向上的 229 场技术会议
  • 12 场子会议,包括 Cloud Native & Kubernetes AI 日
  • 面向一线实践者的动手教学与工作坊
  • CNCF 项目展区展示了 50 多个项目
  • 与业内顶尖专家交流的诸多机会

关键主题与趋势

AI 与机器学习集成

AI 和 ML 工作负载成为本次大会的核心话题,讨论焦点已从理论转向面向生产的落地方案。越来越多的组织将 Kubernetes 作为构建 AI 基础设施的平台,原因在于其灵活性、可扩展性以及日益丰富的生态工具支持。

特别值得关注的是大语言模型(LLMs)与生成式 AI 在云原生应用中的集成,许多会议聚焦于 GPU 资源的高效调度、模型服务架构设计,以及机器学习流水线的扩展能力。主要进展包括:

  • 支持 GPU/TPU 工作负载的动态资源调度能力提升
  • 利用镜像挂载方式简化 AI 模型和数据集的加载
  • 在 Kubernetes 上运行 LLM 的生产级实践范式
  • 支持 AI 工作负载弹性恢复的检查点机制
“我们正在见证一场范式转变:Kubernetes 不再只是 AI 工作负载的承载平台,而是企业级 AI 运行的标准平台。”

安全性提升

安全性依然是本届大会的重要主题,特别是在供应链安全、基于身份的信任模型以及自动化策略执行方面。与会者普遍展现出安全理念的成熟——从孤立控制向全生命周期的安全战略转变。

主要安全趋势包括:

  • SLSA、GUAC 等供应链安全框架的采用
  • 面向 AI 模型和训练数据的专用安全控制集成
  • 验证型准入策略(Validating Admission Policy)及政策即代码(Policy as Code)的持续演进
  • 针对敏感工作负载的保密计算技术
  • 容器镜像漏洞扫描与自动化管理
“基于身份的信任正成为 Kubernetes 安全的核心,逐步取代传统边界防御机制,走向细粒度、上下文感知的访问控制。”

平台工程演进

平台工程已经从一个流行词汇演进为关键的工程实践。多个组织分享了平台建设的真实案例与成功指标,重心也逐步从“建设平台”转向“衡量开发者体验”和“量化效率提升”。

平台工程的关键趋势包括:

  • 基于 Kubernetes API 构建的内部开发平台(使用 Controller 和 Operator)
  • GitOps 工作流的广泛应用于平台运维
  • “黄金路径”(Golden Paths)模式,平衡开发自主性与运维需求
  • 集成 AI 助手以增强平台可用性
  • 明确平台效能的度量标准与 KPI
“平台工程社区的关注焦点正在从技术细节转向开发者体验和组织效能的提升。”

多集群与边缘计算

随着 Kubernetes 在企业中的部署不断扩大,多集群管理与边缘计算成为愈发重要的主题。KubeCon EU 2025 中多场会议围绕如何编排分布式环境下的资源展开,重点介绍了 KubeStellar、Karmada 与 ClusterAPI 等项目。

边缘计算的使用场景尤其受到关注,展示了云原生技术如何突破传统数据中心的限制,支持物联网(IoT)、零售、电信与工业等领域的应用。关键进展包括:

  • 边缘计算项目 KubeEdge 正式毕业
  • 面向资源受限环境的轻量级 Kubernetes 发行版
  • 连接分布式集群的网络解决方案
  • 自动化边缘部署的生命周期管理

可持续性与绿色计算

本届大会的一个新兴重点是可持续性与绿色计算。多场会议探讨了云原生基础设施对环境的影响,并提出优化资源使用、减少碳足迹的策略。

该领域的亮点包括:

  • 降低机器学习工作负载能耗的绿色 AI 实践
  • 降低空闲资源率的优化技术
  • 衡量能源效率的指标与可观测工具
  • 可持续基础设施设计的案例研究
“云原生社区正日益认识到自身在环保方面的责任,致力于通过高效资源利用与可持续实践应对环境问题。”

各分会场亮点议题

AI 与机器学习专题亮点

在 Kubernetes 上部署可投产的大语言模型:模式、陷阱与性能优化

Priya Samuel(Elsevier)与 Luke Marsden(MLOps Consulting)

本次演讲提供了在 Kubernetes 上部署 LLM 的实践洞察,涵盖模型服务架构、资源优化和性能调优。演讲者分享了在生产环境中被验证有效的真实模式,并指出常见的陷阱。

轻松扩展至数千 GPU:在多个区域进行大模型训练

张永曦、段梦、吴蓉蓉(中国移动)

本场报告展示了中国移动在多个区域进行大规模 AI 训练的方案,讲解了他们如何编排数千个 GPU 来执行分布式训练任务,同时保障效率与可靠性。

是的,你可以在 Kubernetes 上运行 LLM

Abdel Sghiouar 与 Mofi Rahman(Google Cloud)

本演讲解构了在 Kubernetes 上运行大型语言模型的流程,强调各类规模的组织均可利用其现有 Kubernetes 基础设施来承载 AI 工作负载,而无需太多专业知识。

安全专题亮点

不信任何人:使用机密容器保障安全存储

Aurélien Bombo (Microsoft)

本次演讲探讨了如何通过机密计算技术保护 Kubernetes 存储系统中的敏感数据,确保即使是平台管理员也无法在未经授权的情况下访问加密内容。

签名、封装、交付:为一切内容签名与验证

Jeremy Rickard (Microsoft)

全面介绍了 Kubernetes 生态中的构件签名与验证机制,涵盖 Notary v2、Sigstore 以及 OCI 注册表等在供应链安全中广泛应用的工具。

Shopify 级别的零信任:实现成千上万服务的 MTLS 自动化

Dani Santos 与 Michelle Mali(Shopify)

Shopify 工程师分享了他们如何在大规模服务网格中推行零信任架构,通过自动化技术实现大范围的 MTLS 部署,确保安全又高效。

可观测性专题亮点

Prometheus 与 OpenTelemetry 的互操作性现状

Arthur Sens(Grafana)与 Juraj Michalek(Swiss RE)

本次演讲探讨了 Prometheus 与 OpenTelemetry 两大可观测性项目之间不断演化的关系,展示它们如何协同构建现代化监控体系。

驯服 500 亿时序数据:在 Kubernetes 上运行全球级 Prometheus 部署

Orcun Berkem 与 Alan Protasio(AWS)

AWS 工程师分享了应对超大规模指标量的 Prometheus 扩展技巧,包括分片策略、长期存储机制和查询性能优化等实践。

第一天的预判:基于异常检测的可观测性增强

Prashant Gupta 与 Kruthika Prasanna Simha(Apple)

Apple 展示了如何利用基于机器学习的异常检测技术,在问题影响用户之前提前识别风险,并将预测能力融入其可观测性平台。

存储与数据管理专题亮点

在 Kubernetes 上运行 Trino 与数据治理

Sung Yun 与 Aki Sukegawa(Bloomberg)

Bloomberg 工程师展示了如何在 Kubernetes 上部署 Trino 时集成数据治理控制,兼顾金融数据的灵活性与合规性需求。

Kubernetes 数据的未来:从数据库管理到 AI 基础设施

Melissa Logan、Nimisha Mehta、Gabriele Bartolini 与 Brian Kaufman(多个组织)

本次小组讨论探讨了 Kubernetes 上的数据管理如何演进以支持 AI 工作负载,关注数据持久性、缓存及生命周期管理等挑战。

与 Pod 共舞:服务数百万查询时进行数据库集群的在线迁移

Jayme Bird 与 Manish Gill(ClickHouse)

演讲详细介绍了如何在 Kubernetes 集群之间迁移大型数据库部署,同时确保最小化停机时间,并保持数据一致性与高性能。

平台工程专题亮点

从裸机到应用:LinkedIn 的 Kubernetes 计算平台

Ahmet Alp Balkan 与 Ronak Nathani(LinkedIn)

LinkedIn 工程师分享了他们构建统一计算平台的经验,该平台从裸金属基础设施覆盖到应用交付,实现了数千名开发者的基础设施管理标准化。

平台工程爱安全:把安全融入平台,而不是甩锅给开发者

Maxime Coquerel(加拿大皇家银行)与 Mathieu Benoit(Humanitec)

演讲呼吁将安全能力内嵌到平台本身,而非依赖开发者实现,从而同时提升安全性和开发体验。

从零开始组建并扩展平台工程团队

Camille Fournier(独立顾问)与 Ian Nowland(Junction Labs)

两位行业专家分享了平台团队构建的组织策略,探讨了团队组建、优先级设定和影响力衡量等关键问题。

主题演讲亮点

KubeCon EU 2025 的主题演讲体现了云原生生态系统的日趋成熟,同时也强调了新兴挑战与机遇。主要公告和主题包括:

CNCF 项目更新

行业发展方向

“Kubernetes 正在从一项技术平台演变为业务关键基础设施,这要求具备成熟的运维实践、强健的安全机制和可持续的设计原则。”

产业影响与未来趋势

KubeCon EU 2025 展示了 Kubernetes 已确立其作为现代应用基础设施核心的地位。各组织正着力构建更高阶的能力,应对具体业务挑战。以下趋势将塑造未来一年的云原生格局:

AI 原生基础设施

Kubernetes 正迅速演进为 AI 工作负载的默认平台,针对 AI 生命周期不同阶段的专用工具和模式不断涌现。随着企业从实验走向生产,此趋势将进一步加速。

统一的安全框架

原本碎片化的云原生安全工具正向贯穿软件生命周期的全面框架收敛,重点转向供应链安全与策略自动执行。

平台即产品

将内部平台视为产品,关注用户体验、量化价值并持续改进。企业正在投资平台团队以连接技术与业务需求。

边缘与多集群管理

随着 Kubernetes 部署拓展至集中式集群之外,支持边缘计算、混合云与多区域部署的工具与实践日渐成熟。

WebAssembly 集成

WebAssembly(Wasm)正崛起为容器的补充技术,提供轻量、安全的执行环境,扩展现有云原生平台的能力边界。

实践建议

结合 KubeCon EU 2025 的讨论与演讲,以下是建议组织在云原生之路上重点关注的方向:

关注领域 建议
AI 工作负载
  • 评估动态资源调度(DRA)以管理 GPU
  • 考虑使用 KubeFlow、Slinky 等专用 ML 编排器
  • 实现检查点 / 恢复机制支持长时间运行的 AI 任务
安全
  • 采用 Sigstore、GUAC、Kubescape 等供应链安全工具
  • 实施验证型准入策略以自动执行安全规则
  • 使用 SPIFFE/SPIRE 实现多环境中的工作负载身份管理
可观测性
  • 集成 OpenTelemetry 以统一采集观测数据
  • 探索基于 eBPF 的工具以实现系统深度可视化
  • 通过 SLO 与错误预算来提升服务可靠性
平台工程
  • 聚焦开发者体验指标衡量平台效能
  • 建立内部开发者门户以支持服务发现与自助交付
  • 使用 CRD 与 Operator 扩展 Kubernetes 应用于特定领域
多集群管理
  • 评估 Karmada、ClusterAPI、KubeStellar 等项目实现集群编排
  • 构建统一的观测与治理能力覆盖多个集群
  • 采用 GitOps 工作流实现部署一致性

结语

KubeCon + CloudNativeCon Europe 2025 展示了云原生生态系统的持续演进,Kubernetes 已牢牢确立其作为现代应用的关键基础设施地位。大会重点强调了各组织正从初始采纳阶段迈向应对 AI、安全、平台工程与多集群管理等复杂挑战。

本次大会展现出整个生态的成熟度:技术讨论更深入,入门内容减少,更多关注生产级实现、卓越运维与可持续实践。随着 Kubernetes 十周年的到来,社区也逐渐将目光投向云原生采用的“人”因素,包括开发者体验、组织转型和包容治理。

展望未来,AI 能力融合、安全实践提升以及边缘场景的扩展将持续推动云原生领域的创新发展。那些拥抱这些趋势并专注于运维卓越与开发者效率的组织,将更有能力以 Kubernetes 为核心推动其数字化转型。

“KubeCon EU 2025 展示了 Kubernetes 如何从一项颠覆性技术演化为一项关键平台,赋能各行业的创新实践。”

© 2025 Jimmy Song。所有见解基于 KubeCon + CloudNativeCon Europe 2025。