📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

InternVL

一个开源的多模态视觉 - 语言基线与工具箱,面向图像/视频理解与生成任务。

简介

InternVL 是由 OpenGVLab 发布的开源多模态视觉 - 语言基线与工具箱,面向图像与视频的理解、检索与生成任务,涵盖从数据预处理、模型训练到评估的一整套流水线。该项目为研究和工程提供了可复现的实现与合理的基线表现。

主要特性

  • 支持多模态(图像、视频与文本)模型训练与评估。
  • 提供丰富的数据预处理、增强与训练脚本,便于复现实验。
  • 开箱即用的模型库与示例,便于在 downstream 任务中快速验证。

使用场景

  • 视觉问答、图像 - 文本检索、图像/视频分类与分割的研究与基准构建。
  • 学术研究中复现论文结果或作为新的模型对比基线。
  • 工程中用于快速搭建多模态原型与工具链。

技术特点

  • 基于 PyTorch 实现,便于扩展与部署。
  • 提供完善的训练/评估流水线,支持大规模数据与分布式训练。
  • 采用常用的多模态预训练与微调策略,兼容主流模型结构。

评论区

InternVL
资源信息
作者 OpenGVLab
添加时间 2025-10-03
开源时间 2023-11-22
标签
多模态 大语言模型 图像生成 开源