《智能体设计模式》中文版已发布, 点击阅读

dInfer

dInfer 是一个面向扩散语言模型(dLLM)的高效推理框架,聚焦解码算法与 KV-cache 管理以提升推理吞吐与质量。

简介

dInfer 是一个针对扩散语言模型(dLLM)的高效推理框架,模块化地将推理拆分为模型、扩散迭代管理、解码策略与 KV-cache 管理四个组件,提供灵活的算法组合接口以提升并行性与推理效率。

主要特性

  • 多种解码算法:包含软扩散迭代、分层与并行解码策略,用于在保证质量的同时提升吞吐。
  • KV-cache 管理:引入邻域刷新等策略以缓解缓存陈旧问题并提升缓存命中率。
  • 系统优化:支持张量并行与专家并行,利用 PyTorch 编译与 CUDA Graphs 等技术优化内核执行。

使用场景

  • 在高性能推理场景中替代传统自回归解码以提高吞吐与延迟表现。
  • 在模型演进或多模型对比时用于基准测试与系统级性能调优。
  • 配合容器化与分布式环境部署,用于服务化的模型推理流水线。

技术特点

  • 以 Python 为主实现,提供清晰的 API 与组件化设计,便于接入不同模型与硬件后端。
  • 对接并行计算与内核级优化手段,兼顾算法创新与系统工程实现。

评论区

dInfer
资源信息
🔮 推理 🛠️ 开发工具 🌱 开源