MLServer 是一个面向生产的开源推理服务器,设计用于通过 REST 和 gRPC(符合 V2 推理协议)提供高吞吐、低延迟的模型在线服务。它支持多模型并行、适配多种推理运行时(例如 MLflow、Hugging Face、XGBoost 等),并能与 Kubernetes 原生部署工具(如 Seldon Core、KServe)集成。
主要特性
- 多模型服务:在同一进程中运行多个模型以提高资源利用率。
- 并行推理与自适应批处理:通过工作池和自适应分批提升吞吐。
- 多运行时与插件机制:内置或自定义运行时(如 HuggingFace、MLflow)可扩展性强。
- 标准协议支持:提供符合 KFServing/V2 Dataplane 的 REST 与 gRPC 接口,便于与现有生态集成。
使用场景
- 在 Kubernetes 上部署生产级模型推理服务。
- 将多种模型或不同框架的模型统一暴露为标准推理接口。
- 构建需要高吞吐与低延迟的在线推理流水线。
技术特点
- Python 实现,支持扩展的推理运行时和插件架构。
- 支持多种模型格式与后端(TensorFlow、PyTorch、ONNX、XGBoost 等)。
- 文档与示例丰富,采用 Apache-2.0 许可,社区与贡献者活跃。