vLLM | Jimmy Song

vLLM 是一个用于大语言模型的高性能推理引擎。

章节目录

本地推理服务

待迁移

使用 vLLM 在 Mac Mini M4 上构建高性能本地推理服务，兼容 OpenAI API，提升大语言模型的推理速度与吞吐量。

待迁移

深入剖析 vLLM 推理加速的工程原理，理解 KV Cache、PagedAttention、动态批处理等关键优化。

部署与性能优化

待迁移

介绍 vLLM 在生产环境中的应用场景、优势以及实际案例。