简介
Petals 是一个社区驱动的分布式推理与微调系统,允许用户将大型语言模型的计算负载拆分到多台机器上(类似 BitTorrent 的方式)以实现本地或协作式部署。它支持来自 Hugging Face 的多种模型,并提供示例、Docker 镜像与 Colab 教程,便于研究与实验。
主要特性
- 分布式推理:将模型层分布在网络中的多台机器上以实现可用的推理性能。
- 支持大模型:可运行 Llama 3.1、Falcon、BLOOM 等大型预训练模型。
- 易用性:提供示例、Docker 镜像与 Colab 教程,支持在多种平台(Linux、macOS、WSL)上运行。
使用场景
- 在资源受限的设备上运行大型模型的交互式应用或聊天机器人。
- 协作式研究与共享 GPU 资源以进行微调或基准测试。
- 构建私有或公有的“swarm”以托管模型并提高可用性。
技术特点
- 基于 PyTorch 与 Hugging Face Transformers 实现,兼容现有模型权重与工具链。
- 使用网络层分发与流水线并行(pipeline parallelism)来分割模型计算。
- 支持 Docker 与多种 GPU 平台,并提供监控与 swarm 健康页面( https://health.petals.dev/ )。