Mini-SGLang

一个轻量而高性能的大语言模型推理框架，兼顾工程化与可读性。

SGL Project · Since 2025-09-01

正在加载评分...

详细介绍

Mini-SGLang 是一个轻量但面向工程的高性能大语言模型推理框架，目标在于将复杂的推理系统简化为可理解、可扩展的代码库。项目提供本地部署与在线服务能力，支持通过 OpenAI 兼容接口对外提供推理服务，并包含交互式终端、在线服务与多种示例以便快速上手。

高性能：通过重用前缀缓存（Radix Cache）、分块预填（Chunked Prefill）、重叠调度（Overlap Scheduling）与张量并行等技术优化吞吐与延迟。
轻量可读：约 5k 行 Python 实现，模块化且带类型注解，便于研究与二次改造。
多场景部署：支持本地 GPU（依赖 CUDA）与在线服务部署，并集成多种示例（code-interpreter、浏览器、文件系统等）。