📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Flash Linear Attention (fla)

基于 Triton 的 PyTorch 库,提供高效线性注意力内核与模型组件。

简介

fla 提供一套 Triton 优化的线性注意力实现与模型组件,面向高效训练与推理,兼容 NVIDIA/AMD/Intel 平台,适用于需要长上下文或低内存占用的场景。

主要特性

  • 丰富的线性注意力内核与模型(如 GLA、DeltaNet、Mamba 等)。
  • Triton 和 fused 模块提升内存与计算效率。
  • 与 Hugging Face transformers 集成,提供示例与基准工具。

使用场景

  • 在大型模型中替换标准 Attention 以降低显存占用。
  • 长上下文任务和高效生成的研究与工程部署。

技术特点

  • Triton 内核、融合算子与高效损失实现。
  • 支持混合模型(standard + linear attention)的灵活配置。

评论区

Flash Linear Attention (fla)
资源信息
作者 fla-org
添加时间 2025-09-14
标签
开源项目 开发与调试工具 项目