简介
FlashInfer 是一个为 LLM 服务场景优化的内核库与 JIT 工具,提供高性能的注意力(Attention)与采样(Sampling)实现,旨在降低延迟并提升 GPU 带宽利用率,支持 PyTorch、TVM 等集成方式,适合构建高吞吐量的推理服务。
主要特性
- 高效的稀疏/稠密注意力内核与采样实现。
- 面向生产的内核定制与 JIT 编译流水线,支持 precompile/缓存机制。
- 与主流推理框架兼容(PyTorch/TVM/C++)。
- 面向 LLM-serving 的内存与算子优化策略。
使用场景
- 大规模 LLM 推理服务与低延迟在线推理。
- 自定义注意力或采样策略的研究与工程化部署。
- 与 vLLM、TGI 等推理栈结合以优化整体吞吐。
技术特点
- 提供 CUDA 与 C++ 级别的内核优化,支持多种 GPU 架构。
- 通过插件化与 JIT 机制支持快速实验与工程化打包。