第十届中国开源年会,12月6-7日,北京, 查看详情

Open-dLLM: Open Diffusion Large Language Models

一个针对扩散式大语言模型(Open-dLLM)的完整开源实现,覆盖从预训练到评估与推理的全流程。

详细介绍

Open-dLLM 是一个面向扩散式大语言模型(大语言模型(LLM, Large Language Model))的开源工程,目标是提供从原始数据处理、预训练、评估到推理与权重发布的完整流程。项目同时包含用于代码生成的变体 Open-dCoder,并发布了对应的检查点与评估套件,便于在研究与工程环境中复现扩散 LLM 的训练与推断流程。

主要特性

  • 完整可复现的训练流水线:支持从数据准备到大规模训练的端到端流程。
  • 开放的评估套件:涵盖 HumanEval、MBPP、代码填空等任务,用于比较不同 dLLM 表现。
  • 推理与采样脚本:提供易用的采样/生成接口,便于快速试验与部署。
  • 权重与检查点:模型权重在 Hugging Face 发布,便于复现与迁移学习。

使用场景

  • 研究人员:探索扩散式生成在大语言模型(LLM)上的可行性与优化策略。
  • 工程团队:复现论文结果、训练自定义模型或在现有权重上微调以满足特定任务。
  • 教学与基准测试:作为开源的基准库用于教学与研究复现,并可用于对比实验。

技术特点

  • 基于 Masked Diffusion Model(MDM)目标的训练设计,适配代码生成与填空任务。
  • 与 VeOmni、lm-eval-harness 等开源工具链集成,提供数据集下载、评估脚本与自动化配置。
  • 透明的配置文件与复现实验设置,便于迁移到不同算力环境(包含 Hugging Face 检查点上传示例)。
Open-dLLM: Open Diffusion Large Language Models
资源信息
🌱 开源 🧬 大语言模型 🏗️ 模型 🏋️ 模型训练 📝 评估