简介
LoRAX(LoRA eXchange)是一个面向 LoRA 微调模型的推理服务器,支持按需加载和合并适配器,能够在 GPU/CPU 混合环境中高效服务数千个微调模型。
主要特性
- 动态适配器加载:可从 Hugging Face、Predibase 或本地文件系统按请求即时加载 LoRA 适配器并支持按需合并。
- 高吞吐低延迟:异步批处理、适配器预取与卸载、以及针对 CUDA 的性能优化(flash-attention、paged attention 等)。
- 生产就绪:提供预构建 Docker 镜像、Helm Chart、Prometheus 指标与分布式追踪支持。
使用场景
- 为大量微调模型提供统一的推理与管理平台,适用于多租户场景与按需个性化服务。
- 在需要同时服务大量不同任务或适配器的在线推理系统中降低部署成本。
技术特点
- 支持 FP16 与多种量化后端(bitsandbytes、GPT-Q、AWQ),以及对主流基础模型的兼容性。
- OpenAI 兼容 API 与 Python 客户端,支持流式输出和结构化 JSON 模式。