《智能体设计模式》中文版已发布, 点击阅读

Open R1

Open R1 是 Hugging Face 对 DeepSeek-R1 的开源复现,提供训练、评估与数据生成流水线,便于研究者复现并扩展 R1 能力。

简介

Open R1 是 Hugging Face 社区对 DeepSeek-R1 的完全开源复现工程,目标是公开训练与评估流水线、数据生成与蒸馏配方,使研究者能够复现并在其上构建新的推理与训练流程。

主要特性

  • 提供从数据蒸馏、SFT 到 RL(GRPO)训练的端到端脚本与样例配置。
  • 发布多个与训练/评估相关的数据集(例如 Mixture-of-Thoughts、OpenR1-Math 等)。
  • 支持使用 vLLM、vLLM 后端与多种沙箱(E2B、Morph)进行训练与在线评估。

使用场景

  • 研究与复现实验:可用于复现 DeepSeek-R1 的训练流程与评测结果。
  • 数据生成与蒸馏:生成高质量的推理链数据以训练更强的模型。
  • 大规模训练流水线:为拥有多 GPU/集群的团队提供示例配置(Slurm、Accelerate、DeepSpeed)。

技术特点

  • 以 Python 为主的训练与数据生成代码,依赖 vLLM、vLLM 工具链与 PyTorch 指定版本。
  • 支持多种并行化策略(DDP、DeepSpeed、数据/张量并行)以及高性能注意力/内核优化。
  • 提供完善的评测脚本(lighteval)与基准复现示例,用于衡量模型在数学、代码与推理任务上的性能。

评论区

Open R1
资源信息
🌱 开源 🏋️ 模型训练