📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

BAGEL

一个开源的统一多模态基础模型与工具箱,兼顾理解与生成任务。

简介

BAGEL 是 ByteDance-Seed 发布的开源统一多模态基础模型与工具箱,支持图像/视频与文本的联合训练、理解和生成任务。项目提供训练、评估与部署脚本,以及官方示例与模型权重,适合研究基线验证与工程原型开发。

主要特性

  • 统一的多模态预训练与微调流水线,覆盖理解与生成场景。
  • 提供训练/评估脚本、预训练权重与模型导出,支持 Hugging Face、Gradio 等生态集成。
  • 在多项基准上展示领先的理解与生成性能,并提供详细的复现实验说明。

使用场景

  • 多模态基准测试、模型对比与学术研究复现。
  • 文本引导的图像生成与图像编辑任务。
  • 工程原型与演示(包含官方 demo 与 Hugging Face Space)。

技术特点

  • 基于 PyTorch 实现,采用 Mixture-of-Transformer-Experts 等架构设计以提升容量与效率。
  • 支持大规模训练、量化与推理优化,包含训练指南与评估工具链。
  • 提供丰富的模型与数据处理脚本,便于扩展和集成到下游任务。

评论区

BAGEL
资源信息
作者 ByteDance-Seed
添加时间 2025-10-03
开源时间 2025-04-17
标签
多模态 图像生成 大语言模型 开源