《智能体设计模式》中文版已发布, 点击阅读

DeepSpeed-MII

由微软开发的低延迟高吞吐量推理框架,适用于大规模模型推理场景。

简介

DeepSpeed-MII(模型推理实现)是 DeepSpeed 推出的开源库,旨在为大模型推理提供低延迟、高吞吐量的能力。它通过阻塞式 KV 缓存、持续批处理、动态 SplitFuse、张量并行和高性能 CUDA 内核等技术,最大化吞吐量并降低延迟。

主要特性

  • 通过阻塞式 KV 缓存和持续批处理等优化,实现高吞吐量文本生成。
  • 动态 SplitFuse 与专用 CUDA 内核提升推理效率。
  • 支持多 GPU 张量并行、模型副本和 RESTful API 服务。
  • 兼容 Hugging Face,支持多种主流模型家族。

应用场景

  • 对吞吐量和延迟要求极高的生产模型服务。
  • 推理优化与内核的研究和基准测试。
  • 在 GPU 和集群上部署持久或非持久的推理管道。

技术亮点

  • 阻塞式 KV 缓存与持续批处理提升内存和吞吐效率。
  • 张量并行与模型副本支持,助力多 GPU 可扩展部署。
  • RESTful API 网关,便于与外部服务集成。

评论区

DeepSpeed-MII
资源信息
🌱 开源 🚀 部署 🔮 推理