第十届中国开源年会,12月6-7日,北京, 查看详情

VibeThinker

一个通过多阶段蒸馏与优化方法提升小模型推理能力的开源大模型项目。

详细介绍

VibeThinker 是由 WeiboAI 开源的小规模推理模型系列,其中 VibeThinker-1.5B 在设计上通过一种名为“谱到信号原则(SSP)”的后训练方法,实现了以 1.5B 参数规模获得强推理能力的目标。该项目强调用两阶段的多样性探索蒸馏(SFT 阶段)与最大熵引导策略优化(RL 阶段),在数学基准与编码任务上取得了超过同类更大模型的表现差异。VibeThinker 适合对成本敏感但追求高推理质量的研究与工程场景。

主要特性

  • 参数高效:仅 1.5B 参数,却在多项数学基准上表现优异。
  • 多阶段训练:结合多样性探索蒸馏与 MGPO(MaxEnt-Guided Policy Optimization)提高正确解的信号强度。
  • 开源可复现:模型权重与技术报告已公开,便于社区验证与二次开发。

使用场景

  • 竞赛类数学问题与高难度推理题的自动化评估与研究验证。
  • 编码任务与代码生成的推理能力验证。
  • 资源受限环境下的推理模型部署与快速迭代研究。

技术特点

  • 基于大语言模型(LLM, Large Language Model)的设计思路,但通过后训练优化显著提升小模型的逻辑推理能力。
  • 使用两阶段多样性探索蒸馏以生成广泛解谱,随后用熵驱动的策略优化放大正确解的概率。
  • 提供 Hugging Face 与 ModelScope 的模型下载与评估工具链,支持 Transformers、vLLM 等主流推理栈的调用。
VibeThinker
资源信息
🧬 大语言模型 🏗️ 模型 🌱 开源