📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

oLLM

轻量级的离线大上下文 LLM 推理库,旨在使用最少显存支持超长上下文推理并兼容多种大模型。

简介

oLLM 是一个面向大上下文、离线推理场景的轻量级 Python 库,基于 Hugging Face Transformers 与 PyTorch 构建,目标是在低显存卡(例如 8GB)上支持超长上下文模型的推理与高效载入。

主要特性

  • 支持多种模型与大上下文(示例涵盖 qwen3-next、gpt-oss、Llama3 等)。
  • 权重按需从磁盘加载,支持将 KV cache 与部分权重离线到 SSD/CPU 来节省显存。
  • 使用 FlashAttention-2 与分块 MLP 等优化以降低显存峰值。
  • 提供 DiskCache、连接与示例,支持批量与流式输出。

使用场景

  • 在资源受限的机器(如 8GB 显卡)上进行本地大上下文模型推理。
  • 对大型文档、日志或病历进行一次性或批量分析与摘要。
  • 需要可控离线推理流程与自定义 offload 策略的研究与工程场景。

技术特点

  • 语言:Python,基于 Hugging Face Transformers / PyTorch。
  • 内存策略:按层加载权重、KV cache 可 offload 到磁盘/CPU、chunked MLP 与 FlashAttention-2。
  • 支持模型示例与用法(详见仓库 README)。

评论区

oLLM
资源信息
作者 Mega4alik
添加时间 2025-09-29
标签
大语言模型 推理 开发与调试工具 开源项目