📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

LLaMA Box (V2)

LLaMA Box 是一个基于 llama.cpp 的推理服务,提供 OpenAI 兼容的 API,支持多模型、多设备与图像生成能力。

简介

LLaMA Box 是一个基于 llama.cpp 和 stable-diffusion.cpp 的轻量级推理服务器(V2),提供 OpenAI 兼容的 RESTful API,支持文本与多模态(图像/音频)模型,并能在多种硬件后端(CUDA / ROCm / Apple Metal / CPU)上运行。

主要特性

  • OpenAI 兼容接口:支持 /v1/chat/completions、/v1/embeddings、/v1/images 等端点。
  • 多模型与多设备:支持 GGUF 模型、多 GPU 切分、RPC server 模式与远程 offload。
  • 多模态支持:图像生成、图像理解与音频处理能力(需启用相应模块)。
  • 推理优化:支持投机解码(speculative decoding)、KV 缓存与多种采样器。
  • 丰富的工具脚本:内置 chat.sh、image_generate.sh、image_edit.sh、batch_chat 等脚本用于快速验证与测试。

使用场景

  • 本地或私有云的模型推理服务与微服务接入(替代 OpenAI API 的本地部署)。
  • 多设备分布式推理与资源受限设备上的模型服务(RPC offload)。
  • 将模型能力包装为 API 以供内部应用(聊天、检索增强生成、图像生成等)。

技术特点

  • 语言与实现:主要使用 C++/Shell,构建链基于 CMake,与 llama.cpp、stable-diffusion.cpp 紧密集成。
  • 后端兼容性:支持 NVIDIA CUDA、AMD ROCm、Apple Metal、Intel oneAPI 等多种运行时与设备。
  • 配置灵活:丰富的命令行参数控制上下文大小、并发、内存分配、采样策略等。

评论区

LLaMA Box (V2)
资源信息
作者 gpustack
添加时间 2025-09-27
开源时间 2024-06-19
标签
开源 推理 推理服务 开发工具 命令行 图像生成