简介
llmaz(发音 /lima:z/)是面向 Kubernetes 的 LLM 推理平台,提供一套生产就绪的工具链与控制面,用于在集群中部署、编排和服务大型语言模型。
主要特性
- 支持多种推理后端(如 vLLM、Text-Generation-Inference、llama.cpp、TensorRT-LLM 等)。
- 支持异构设备与异构集群协同部署,提供模型路由与负载调度策略。
- 内置 Open WebUI 集成,提供可用的聊天与 RAG 工作流支持。
使用场景
- 在 Kubernetes 集群中快速部署 LLM 推理服务并对外提供标准化 API 接入。
- 跨设备/跨节点的分布式推理和弹性伸缩场景(GPU/CPU/混合)。
- 需要多模型供应商(HuggingFace、ModelScope 等)与模型自动加载的场景。
技术特点
- 控制面与数据平面分离,采用 CRD(Custom Resource)方式声明模型与服务。
- 集成多种模型提供商与存储后端,支持自动拉取与秘钥管理。
- 面向生产的运维特性:HPA 支持、Karpenter 节点伸缩与监控接入。