《智能体设计模式》中文版已发布, 点击阅读

ipex-llm

Intel 提供的 XPU 加速库,用于在 Intel 硬件上加速 LLM 推理与微调。

简介

IPEX-LLM 是 Intel 面向 LLM 的 XPU 加速库,旨在在 Intel XPU(含集成显卡、Arc GPU 和 NPU 等)与 CPU 上提升大模型的推理与训练性能。

主要特性

  • 广泛兼容:支持 llama.cpp、Ollama、vLLM、HuggingFace、LangChain、LlamaIndex 等生态集成。
  • 低位与混合精度:支持 INT4/FP4/FP8 等低位推理与混合精度优化以提高吞吐与降低显存占用。

使用场景

  • 在基于 Intel 硬件的本地开发或云端部署中进行高效 LLM 推理与微调。
  • 在资源受限设备上运行大模型的优化推理(例如集成显卡或 NPU)。

技术特点

  • 与 PyTorch 深度集成,支持硬件特定优化与流水线并行(DeepSpeed AutoTP 等)。
  • 面向生产的 Docker 和 Helm 部署文档与性能基准工具,便于线上评估与调优。

评论区

ipex-llm
资源信息
🌱 开源 🚀 部署