简介
LLaVA-NeXT 是 LLaVA 团队发布的开源大规模多模态模型与工具集,致力于统一图像、多图、视频和 3D 数据的训练与推理流程,提供训练脚本、评估工具与多种模型变体,适用于研究和工程场景。
主要特性
- 统一的 interleaved 多模态训练格式,支持多图像和视频推理能力。
- 丰富的模型变体与复现脚本,包含训练、评估与基准工具(lmms-eval)。
- 定期发布模型检查点与评测结果,并提供 demo 与博客说明项目更新。
使用场景
- 多模态基准测试、模型对比与学术复现。
- 视频理解、图像问答、图像编辑与多图像场景理解。
- 用作研究基线或工程原型的模型与工具链。
技术特点
- 基于 PyTorch 实现,支持大规模训练、量化和推理优化。
- 采用可扩展的模型结构与训练策略,包含 critic 模型与 DPO/RLHF 等训练方法。
- 提供详尽的文档、demo(包括 Hugging Face Spaces)与数据集链接,便于复现与评估。