OpenLLM 是由 BentoML 社区维护的开源项目,旨在简化自托管 LLM 的部署与运行,提供统一的 CLI、服务命令(如 openllm serve
)、内置聊天 UI 与兼容 OpenAI API 的运行时接口,支持多种开源模型与云部署方案。
主要特性
- 一键启动模型服务器:
openllm serve <model>
提供 OpenAI 兼容接口和内置聊天 UI。 - 丰富的模型支持:集成多种开源 LLM(Llama、Mistral、Qwen、Gemma 等)与模型仓库扩展。
- 部署与集成:支持 Docker、Kubernetes 与 BentoML 云部署(BentoCloud)。
使用场景
- 在本地或云端快速自托管并暴露 LLM 为标准 API。
- 为企业构建可审计、可监控的模型推理服务与 Chat UI。
- 集成自定义模型仓库,实现模型分发与自动更新。
技术特点
- 基于 Python 实现,提供 CLI、Python API 与管理工具。
- 与 BentoML、vLLM 等推理后端集成,支持高性能推理与可扩展部署。
- Apache-2.0 授权,社区活跃,文档与示例丰富。