简介
LLaMA Box 是一个基于 llama.cpp 和 stable-diffusion.cpp 的轻量级推理服务器(V2),提供 OpenAI 兼容的 RESTful API,支持文本与多模态(图像/音频)模型,并能在多种硬件后端(CUDA / ROCm / Apple Metal / CPU)上运行。
主要特性
- OpenAI 兼容接口:支持 /v1/chat/completions、/v1/embeddings、/v1/images 等端点。
- 多模型与多设备:支持 GGUF 模型、多 GPU 切分、RPC server 模式与远程 offload。
- 多模态支持:图像生成、图像理解与音频处理能力(需启用相应模块)。
- 推理优化:支持投机解码(speculative decoding)、KV 缓存与多种采样器。
- 丰富的工具脚本:内置 chat.sh、image_generate.sh、image_edit.sh、batch_chat 等脚本用于快速验证与测试。
使用场景
- 本地或私有云的模型推理服务与微服务接入(替代 OpenAI API 的本地部署)。
- 多设备分布式推理与资源受限设备上的模型服务(RPC offload)。
- 将模型能力包装为 API 以供内部应用(聊天、检索增强生成、图像生成等)。
技术特点
- 语言与实现:主要使用 C++/Shell,构建链基于 CMake,与 llama.cpp、stable-diffusion.cpp 紧密集成。
- 后端兼容性:支持 NVIDIA CUDA、AMD ROCm、Apple Metal、Intel oneAPI 等多种运行时与设备。
- 配置灵活:丰富的命令行参数控制上下文大小、并发、内存分配、采样策略等。