RouteLLM 是一个开源框架,用于在推理层对请求进行路由,从而将简单请求导向更经济的模型、将复杂请求分配给更强大的模型,以达到在有限成本下接近高质量模型表现的目标。项目同时包含服务端、评估框架与训练好的路由器配置。
主要特性
- 路由器集合:内置多种路由器(例如 mf、sw_ranking、bert 等),可扩展并支持定制路由策略。
- 评估框架:提供对路由器在标准基准(如 MT Bench、MMLU、GSM8K)上的评估工具与可视化结果。
- OpenAI 兼容服务:可启动 OpenAI-compatible server,以兼容现有客户端接入。
- 本地与远端支持:支持将流量路由到本地模型或云端服务,支持阈值校准与成本控制。
使用场景
- 在生产中通过路由器降低多模型部署的调用成本,同时保持高质量输出。
- 对路由策略进行学术或工程评估与对比实验。
- 想把单一模型客户端无缝替换为路由服务以优化成本与性能的场景。
技术特点
- 实现:以 Python 为主,包含服务、控制器与评估脚本,示例与基准在仓库中提供。
- 部署:提供 Python SDK 与 server 模式,可通过 pip 安装或从源码运行。
- 许可:Apache-2.0 许可证,活跃维护并附带论文与基准数据引用。