《智能体设计模式》中文版已发布, 点击阅读

llmaz

llmaz 是 InftyAI 提供的面向 Kubernetes 的先进 LLM 推理平台,旨在简化模型部署与分发,支持多后端、异构集群与弹性伸缩。

简介

llmaz(发音 /lima:z/)是面向 Kubernetes 的 LLM 推理平台,提供一套生产就绪的工具链与控制面,用于在集群中部署、编排和服务大型语言模型。

主要特性

  • 支持多种推理后端(如 vLLM、Text-Generation-Inference、llama.cpp、TensorRT-LLM 等)。
  • 支持异构设备与异构集群协同部署,提供模型路由与负载调度策略。
  • 内置 Open WebUI 集成,提供可用的聊天与 RAG 工作流支持。

使用场景

  • 在 Kubernetes 集群中快速部署 LLM 推理服务并对外提供标准化 API 接入。
  • 跨设备/跨节点的分布式推理和弹性伸缩场景(GPU/CPU/混合)。
  • 需要多模型供应商(HuggingFace、ModelScope 等)与模型自动加载的场景。

技术特点

  • 控制面与数据平面分离,采用 CRD(Custom Resource)方式声明模型与服务。
  • 集成多种模型提供商与存储后端,支持自动拉取与秘钥管理。
  • 面向生产的运维特性:HPA 支持、Karpenter 节点伸缩与监控接入。

评论区

llmaz
资源信息
🌱 开源 🛠️ 开发工具 🛰️ 推理服务