《智能体设计模式》中文版已发布, 点击阅读

使用云原生大模型开源四件套构建高效推理体系:KServe + vLLM + llm-d + WG Serving

云原生与 AI 原生架构师必读:KServe、vLLM、llm-d、WG Serving 如何形成大模型推理的云原生“四件套”,各自定位与组合优势,以及生态融合趋势分析。

云原生推理体系的标准化与模块化,正让大模型部署像 Web 服务一样简单高效。

大模型推理正在从单机加速器时代迈向云原生分布式体系。当前最具代表性的组合是 KServe、vLLM、llm-d 与 WG Serving(Working Group Serving)。它们分别承担标准接口、执行引擎、调度层和协作规范四个角色,共同形成可扩展、可观测、可治理的推理底座。

下方时间线梳理了四件套的关键演进节点:

图 1: 云原生大模型推理四件套演进时间线
图 1: 云原生大模型推理四件套演进时间线

架构总览

下方架构图展示了四件套在推理体系中的分层协作关系:

图 2: 云原生大模型推理四件套架构总览
图 2: 云原生大模型推理四件套架构总览

KServe:云原生模型服务核心

KServe 是 Kubernetes 原生的推理控制平面。它以 CRD(Custom Resource Definition, 自定义资源定义)形式抽象模型服务,使 AI 推理像微服务一样可部署、可扩缩、可灰度。

下表总结了 KServe 的核心能力与新特性:

维度描述
核心目标提供 Kubernetes 原生的推理标准与控制面
核心能力CRD 标准化、弹性伸缩、流量治理、网关统一入口
新特性LeaderWorkerSet 支持、AI Gateway 集成、与 llm-d 对接
表 1: KServe 核心能力与新特性

KServe 的关键能力包括:

  • 统一接口:InferenceService CRD 定义输入输出协议,与 REST/GRPC 或 OpenAI API 兼容。
  • 弹性调度:支持 GPU 自动伸缩与 ModelMesh 多模型托管。
  • 流量治理:金丝雀发布、A/B 测试、推理图(InferenceGraph)。

最新版本引入 LeaderWorkerSet(LWS)机制与 Envoy AI Gateway 扩展,使多 Pod 大模型推理成为原生能力。KServe 正从传统 ML 服务平台转型为 生成式 AI 控制平面标准

vLLM:高性能推理执行引擎

vLLM 聚焦极致吞吐与显存效率,是当前开源性能标杆。

下方时序图展示了 vLLM 推理的主要流程:

图 3: vLLM 推理流程
图 3: vLLM 推理流程

下表总结了 vLLM 的核心技术机制与效果:

特性技术机制效果
PagedAttention显存分页管理延长上下文,减少碎片
Continuous Batching动态批调度提高 GPU 利用率
Prefix Cache前缀复用降低延迟与成本
表 2: vLLM 核心技术机制与效果

vLLM 兼容 OpenAI API,支持 INT8/FP8 等量化及多种并行模式,适配 NVIDIA、AMD、TPU、Gaudi 等硬件。在单机或小规模场景下,vLLM 可独立运行;在集群环境中,它是 KServe/llm-d 的执行底座。

llm-d:分布式推理调度层

llm-d 是 Kubernetes 上的大模型调度与编排系统,为 vLLM 提供多实例协同能力。设计目标:让集群像单机一样推理

下表总结了 llm-d 的核心机制与技术亮点:

模块功能技术亮点
Scheduler缓存感知路由按前缀亲和调度
Prefill/Decode 分离异构硬件优化A100 Prefill + L40 Decode
Cache Manager全局缓存索引GPU/CPU/NVMe 层次化缓存
表 3: llm-d 核心机制与技术亮点

下方流程图展示了 llm-d 的分布式调度与缓存机制:

图 4: llm-d 分布式调度与缓存机制
图 4: llm-d 分布式调度与缓存机制

llm-d 在 KServe 控制面下以 Leader/Worker 形式运行,调度器嵌入 Envoy 或独立部署,可实时依据缓存与负载信息决策路由。其出现让多节点大语言模型(LLM, Large Language Model)推理首次具备了自治调度与弹性并行

WG Serving:协同标准与生态枢纽

WG Serving 是 Kubernetes 社区推动的 AI Serving 工作组,定义推理在 K8s 中的统一语义。

下表总结了 WG Serving 的核心成果与标准化贡献:

成果/标准说明
Gateway Inference Extension (GIE)基于 Envoy 的推理网关协议,支持模型识别、流式转发、优先级与缓存亲和路由
LeaderWorkerSet CRD显式描述 Leader–Worker 协作结构,成为 llm-d 和 KServe 实现多 Pod 推理的基础
接口对齐倡导 OpenAI-style API 与 K8s 资源对象融合,推动多框架互通
表 4: WG Serving 核心成果与标准化贡献

GIE 是云原生 AI 推理的“统一网关语言”,就像 Ingress 定义 HTTP 服务入口一样,它定义了推理请求在 Kubernetes 内的标准语义与网关行为,使推理系统可组合、可观测、可扩展。

下方流程图展示了 WG Serving 在推理体系中的标准化协作关系:

图 5: WG Serving 标准化协作关系
图 5: WG Serving 标准化协作关系

WG Serving 不是产品,而是形成行业共识的标准层,正促成云原生 AI 推理的统一语言。

组合架构

下表总结了四件套在系统中的分工与角色:

层级组件角色
入口层Envoy + GIE统一 API 网关与流量调度钩子
控制层KServe + LWS生命周期管理、弹性伸缩、流量编排
调度层llm-d前缀感知路由、跨 Pod 协作、缓存管理
执行层vLLM高效推理执行与缓存复用
表 5: 云原生大模型推理四件套分工与角色

下方架构图展示了四件套的协同关系:

图 6: 云原生大模型推理四件套协同关系
图 6: 云原生大模型推理四件套协同关系

客户端以 OpenAI API 格式发送请求,经 GIE 网关调度到最优 Leader,Prefill 完成后缓存传递至 Worker Decode,最终流式返回结果。整套链路兼具标准接口、高吞吐与弹性伸缩特性。

生态收敛趋势

下表总结了云原生大模型推理生态的收敛趋势与特性对比:

趋势/特性说明
API 统一化OpenAI 式接口成为事实标准,KServe 与 vLLM 等均原生兼容
模块解耦网关、调度、推理分层,利于独立演进与替换
缓存分层化GPU–CPU–NVMe 三级 KV 缓存成为主流方案
社区协同WG Serving、PyTorch 基金会、CNCF 等共同推动跨项目融合
表 6: 云原生大模型推理生态收敛趋势与特性对比

下方对比矩阵展示了各项目的核心能力:

项目控制面推理性能分布式能力接口兼容缓存机制弹性扩缩
KServe✅ CRD / LWS⚪ 中⭐ 多模型管理✅ OpenAI API⚪ 无
vLLM⚪ 无🌟 极高⭐ 多 GPU✅ OpenAI API✅ Paged KV⚪ 无
llm-d⭐ K8s 原生调度🌟 高🌟 多实例协同✅ 继承上层接口🌟 全局缓存
WG Serving🌟 标准抽象⚪ 无🌟 跨项目协同🌟 统一规范⚪ 不涉及
表 7: 云原生大模型推理四件套特性对比矩阵

未来推理栈将以标准 API 与可插拔模块为核心,实现像部署 Web 服务一样部署大语言模型(LLM, Large Language Model)

部署范式示例

在 Kubernetes 集群中,四件套的部署范式如下:

  • Prefill 层:4 × A100 Pod,负责长上下文计算。
  • Decode 层:16 × L4 Pod,执行流式生成。
  • llm-d 调度器:依据缓存命中率动态路由。
  • KServe 控制面:管理 LWS 资源与扩缩容。
  • Envoy GIE 网关:统一 OpenAI 接口入口。

下方拓扑图展示了部署结构:

图 7: 云原生大模型推理四件套部署拓扑
图 7: 云原生大模型推理四件套部署拓扑

此组合实现高并发、低成本、可观测的大模型服务。

结语:标准化的未来

下表总结了四件套在推理体系中的层级、角色与核心贡献:

层级角色核心贡献
入口层WG Serving (GIE)统一流量入口与接口规范
控制层KServeKubernetes 原生部署与管理
调度层llm-d前缀缓存感知的分布式推理调度
执行层vLLM高性能、低成本推理引擎
表 8: 云原生大模型推理四件套层级与核心贡献

结论:
这套“四件套”标志着大模型推理进入标准化与可组合时代。未来趋势将聚焦于:

  • API 规范化(OpenAI / OpenInference)
  • 缓存分层与共享化
  • 控制面与数据面解耦
  • 云原生平台一体化编排

总结

云原生大模型推理“四件套”——KServe、vLLM、llm-d、WG Serving——正在推动推理体系的标准化、模块化与生态融合。通过分层协作与标准接口,开发者可实现高性能、低成本、可观测的大语言模型推理服务,助力 AI 原生架构的落地与创新。

文章导航

评论区