简介
InternVL 是由 OpenGVLab 发布的开源多模态视觉 - 语言基线与工具箱,面向图像与视频的理解、检索与生成任务,涵盖从数据预处理、模型训练到评估的一整套流水线。该项目为研究和工程提供了可复现的实现与合理的基线表现。
主要特性
- 支持多模态(图像、视频与文本)模型训练与评估。
- 提供丰富的数据预处理、增强与训练脚本,便于复现实验。
- 开箱即用的模型库与示例,便于在 downstream 任务中快速验证。
使用场景
- 视觉问答、图像 - 文本检索、图像/视频分类与分割的研究与基准构建。
- 学术研究中复现论文结果或作为新的模型对比基线。
- 工程中用于快速搭建多模态原型与工具链。
技术特点
- 基于 PyTorch 实现,便于扩展与部署。
- 提供完善的训练/评估流水线,支持大规模数据与分布式训练。
- 采用常用的多模态预训练与微调策略,兼容主流模型结构。