简介
Kthena 是一个面向生产环境的 Kubernetes 原生 LLM 推理平台,提供声明式的模型生命周期管理与智能请求路由能力。它将控制面与数据面分离,通过 CRD 管理模型部署、扩缩容与滚动更新,同时支持多种推理引擎与异构加速器,帮助团队在熟悉的云原生模式下构建高可靠、可扩展的推理服务。
主要特性
- 生产级别的 LLM 服务能力,支持 vLLM、SGLang、Triton 等后端。
- 预填 (prefill) - 解码 (decode) 分离的路由策略,优化硬件利用与延迟表现。
- 成本驱动的弹性伸缩与丰富的流量策略(灰度、权重分流、速率限制)。
使用场景
- 大规模模型推理服务的部署与运维,满足低延迟与高吞吐的 SLO。
- 多模型、多后端混合部署场景下的智能路由与流量治理。
- 需要与 Kubernetes 调度器(如 Volcano)联合进行拓扑感知或帮派调度的场景。
技术特点
- Kubernetes 原生架构:通过 CRD 与控制器实现声明式管理与零停机更新。
- 路由与数据面解耦:专用路由器实现高吞吐低延迟的请求分发,并支持 LoRA 热插拔。
- 拓扑感知与帮派调度:内置网络拓扑感知调度和 gang scheduling,提升分布式推理效率。