简介
FastChat 是一个开源平台,用于训练、服务与评估对话式大模型。它包含训练代码、分布式多模型服务、Web 界面(Gradio)和与 OpenAI 兼容的 RESTful API,支持多种模型权重与加速后端。
主要特性
- 支持多类模型(Vicuna、LongChat、FastChat-T5 等)与 Hugging Face 权重自动下载。
- 提供分布式架构(controller、model worker、web server)以实现高吞吐量服务。
- 支持多种加速与量化策略(ExLlama、GPTQ、AWQ、8-bit 压缩等),并提供 Metal/CPU/XPU/Ascend 后端指导。
- 包含评估与基准工具(MT-bench、Chatbot Arena),便于对比与人类偏好收集。
使用场景
- 在本地或云端部署可替代 OpenAI 的私有推理服务。
- 快速搭建 Chatbot Arena 或研究模型评估、微调与推理性能对比。
- 作为训练与推理流水线的参考实现,支持 LoRA、SkyPilot 等集成。
技术特点
- Python-first 代码库,广泛使用 Pytorch/Transformers,支持 pip 与源码安装。
- 提供命令行与 API 两种推理方式,兼容 OpenAI 接口,易于集成现有工具链。
- 详尽的文档目录(安装、权重管理、推理、部署、评估、微调等),并有活跃社区与丰富贡献者。