oLLM

轻量级的离线大上下文 LLM 推理库，旨在使用最少显存支持超长上下文推理并兼容多种大模型。

作者: Mega4alik

开源于: 2025-08-16

简介

oLLM 是一个面向大上下文、离线推理场景的轻量级 Python 库，基于 Hugging Face Transformers 与 PyTorch 构建，目标是在低显存卡（例如 8GB）上支持超长上下文模型的推理与高效载入。

主要特性

支持多种模型与大上下文（示例涵盖 qwen3-next、gpt-oss、Llama3 等）。
权重按需从磁盘加载，支持将 KV cache 与部分权重离线到 SSD/CPU 来节省显存。
使用 FlashAttention-2 与分块 MLP 等优化以降低显存峰值。
提供 DiskCache、连接与示例，支持批量与流式输出。

使用场景

在资源受限的机器（如 8GB 显卡）上进行本地大上下文模型推理。
对大型文档、日志或病历进行一次性或批量分析与摘要。
需要可控离线推理流程与自定义 offload 策略的研究与工程场景。

技术特点

语言：Python，基于 Hugging Face Transformers / PyTorch。
内存策略：按层加载权重、KV cache 可 offload 到磁盘/CPU、chunked MLP 与 FlashAttention-2。
支持模型示例与用法（详见仓库 README）。