从云原生走向 AI 原生:一套面向未来的架构方法论 → 阅读《AI 原生基础设施》

vLLM

待迁移

vLLM 是一个用于大语言模型的高性能推理引擎。

章节目录

本地推理服务

待迁移

使用 vLLM 在 Mac Mini M4 上构建高性能本地推理服务,兼容 OpenAI API,提升大语言模型的推理速度与吞吐量。

推理加速

待迁移

深入剖析 vLLM 推理加速的工程原理,理解 KV Cache、PagedAttention、动态批处理等关键优化。

部署与性能优化

待迁移

介绍 vLLM 在生产环境中的应用场景、优势以及实际案例。

创建于 2025/11/04 更新于 2025/11/04 168 字 阅读约 1 分钟