简介
oLLM 是一个面向大上下文、离线推理场景的轻量级 Python 库,基于 Hugging Face Transformers 与 PyTorch 构建,目标是在低显存卡(例如 8GB)上支持超长上下文模型的推理与高效载入。
主要特性
- 支持多种模型与大上下文(示例涵盖 qwen3-next、gpt-oss、Llama3 等)。
- 权重按需从磁盘加载,支持将 KV cache 与部分权重离线到 SSD/CPU 来节省显存。
- 使用 FlashAttention-2 与分块 MLP 等优化以降低显存峰值。
- 提供 DiskCache、连接与示例,支持批量与流式输出。
使用场景
- 在资源受限的机器(如 8GB 显卡)上进行本地大上下文模型推理。
- 对大型文档、日志或病历进行一次性或批量分析与摘要。
- 需要可控离线推理流程与自定义 offload 策略的研究与工程场景。
技术特点
- 语言:Python,基于 Hugging Face Transformers / PyTorch。
- 内存策略:按层加载权重、KV cache 可 offload 到磁盘/CPU、chunked MLP 与 FlashAttention-2。
- 支持模型示例与用法(详见仓库 README)。