《智能体设计模式》中文版已发布, 点击阅读

Petals

在本地和分布式网络上运行大型语言模型,支持协作推理与微调。

简介

Petals 是一个社区驱动的分布式推理与微调系统,允许用户将大型语言模型的计算负载拆分到多台机器上(类似 BitTorrent 的方式)以实现本地或协作式部署。它支持来自 Hugging Face 的多种模型,并提供示例、Docker 镜像与 Colab 教程,便于研究与实验。

主要特性

  • 分布式推理:将模型层分布在网络中的多台机器上以实现可用的推理性能。
  • 支持大模型:可运行 Llama 3.1、Falcon、BLOOM 等大型预训练模型。
  • 易用性:提供示例、Docker 镜像与 Colab 教程,支持在多种平台(Linux、macOS、WSL)上运行。

使用场景

  • 在资源受限的设备上运行大型模型的交互式应用或聊天机器人。
  • 协作式研究与共享 GPU 资源以进行微调或基准测试。
  • 构建私有或公有的“swarm”以托管模型并提高可用性。

技术特点

  • 基于 PyTorch 与 Hugging Face Transformers 实现,兼容现有模型权重与工具链。
  • 使用网络层分发与流水线并行(pipeline parallelism)来分割模型计算。
  • 支持 Docker 与多种 GPU 平台,并提供监控与 swarm 健康页面( https://health.petals.dev/ )。

评论区

Petals
资源信息
🌱 开源 🔮 推理 🧬 大语言模型