简介
dInfer 是一个针对扩散语言模型(dLLM)的高效推理框架,模块化地将推理拆分为模型、扩散迭代管理、解码策略与 KV-cache 管理四个组件,提供灵活的算法组合接口以提升并行性与推理效率。
主要特性
- 多种解码算法:包含软扩散迭代、分层与并行解码策略,用于在保证质量的同时提升吞吐。
- KV-cache 管理:引入邻域刷新等策略以缓解缓存陈旧问题并提升缓存命中率。
- 系统优化:支持张量并行与专家并行,利用 PyTorch 编译与 CUDA Graphs 等技术优化内核执行。
使用场景
- 在高性能推理场景中替代传统自回归解码以提高吞吐与延迟表现。
- 在模型演进或多模型对比时用于基准测试与系统级性能调优。
- 配合容器化与分布式环境部署,用于服务化的模型推理流水线。
技术特点
- 以 Python 为主实现,提供清晰的 API 与组件化设计,便于接入不同模型与硬件后端。
- 对接并行计算与内核级优化手段,兼顾算法创新与系统工程实现。