简介
IPEX-LLM 是 Intel 面向 LLM 的 XPU 加速库,旨在在 Intel XPU(含集成显卡、Arc GPU 和 NPU 等)与 CPU 上提升大模型的推理与训练性能。
主要特性
- 广泛兼容:支持 llama.cpp、Ollama、vLLM、HuggingFace、LangChain、LlamaIndex 等生态集成。
- 低位与混合精度:支持 INT4/FP4/FP8 等低位推理与混合精度优化以提高吞吐与降低显存占用。
使用场景
- 在基于 Intel 硬件的本地开发或云端部署中进行高效 LLM 推理与微调。
- 在资源受限设备上运行大模型的优化推理(例如集成显卡或 NPU)。
技术特点
- 与 PyTorch 深度集成,支持硬件特定优化与流水线并行(DeepSpeed AutoTP 等)。
- 面向生产的 Docker 和 Helm 部署文档与性能基准工具,便于线上评估与调优。