概述
Llumnix 是专为多实例 LLM 服务设计的调度与请求路由层,聚焦于 KV-cache 感知调度、迁移与持续重调度,以最小化延迟并最大化资源利用率。
主要特性
- 支持 KV-cache 感知调度与实例间近乎零开销的迁移。
- 通过细粒度负载均衡,显著减少首 token 响应时间和解码卡顿。
- 可集成主流推理引擎(如 vLLM 等),支持容错与弹性扩缩。
典型场景
- 高并发需求下的大规模多实例 LLM 服务部署。
- 需要隔离、稳定性与自动扩缩容的企业级部署。
技术说明
- 提供与 vLLM 部署兼容的 API 入口(
api_server
和serve
)。 - 支持模拟器与基准测试工具,详细性能复现方法请参考项目文档。