简介
MiniCPM-V 是一系列高效端侧多模态大模型(MLLM),支持单图、多图与高帧率视频理解,并可扩展到语音输入与实时多模态流媒体场景,致力于在移动与边缘设备上实现强大能力与高效部署。
主要特性
- 多模态输入(图像/视频/文本/语音)与统一编码架构,支持长视频与高帧率理解。
- 丰富的模型变体与量化格式(GGUF、int4、AWQ),便于在多平台部署与加速推理。
- 配套 Cookbook、文档与在线/本地 demo,覆盖从推理到微调的完整流程。
使用场景
- 在移动设备或边缘端进行图像/视频理解、OCR、文档解析与多模态问答。
- 实时多模态直播、语音对话与多媒体检索应用。
- 研究与产品团队用于模型评测、微调与端侧部署实验。
技术特点
- 引入 3D-Resampler 等视频压缩技术,实现高效视频 token 压缩与长序列理解。
- 支持与 llama.cpp、Ollama、vLLM 等生态集成,实现多平台推理支持。
- 采用 Apache-2.0 开源许可,项目包含详尽的技术报告与评测数据。