《智能体设计模式》中文版已发布, 点击阅读

MiniCPM-V

MiniCPM-V 系列是面向端侧的高效多模态大模型,支持图像、视频、文本与语音输入,在多模态理解与实时流媒体场景上表现优秀。

简介

MiniCPM-V 是一系列高效端侧多模态大模型(MLLM),支持单图、多图与高帧率视频理解,并可扩展到语音输入与实时多模态流媒体场景,致力于在移动与边缘设备上实现强大能力与高效部署。

主要特性

  • 多模态输入(图像/视频/文本/语音)与统一编码架构,支持长视频与高帧率理解。
  • 丰富的模型变体与量化格式(GGUF、int4、AWQ),便于在多平台部署与加速推理。
  • 配套 Cookbook、文档与在线/本地 demo,覆盖从推理到微调的完整流程。

使用场景

  • 在移动设备或边缘端进行图像/视频理解、OCR、文档解析与多模态问答。
  • 实时多模态直播、语音对话与多媒体检索应用。
  • 研究与产品团队用于模型评测、微调与端侧部署实验。

技术特点

  • 引入 3D-Resampler 等视频压缩技术,实现高效视频 token 压缩与长序列理解。
  • 支持与 llama.cpp、Ollama、vLLM 等生态集成,实现多平台推理支持。
  • 采用 Apache-2.0 开源许可,项目包含详尽的技术报告与评测数据。

评论区

MiniCPM-V
资源信息
🌱 开源 🎨 多模态 🖥️ 机器学习平台 🔮 推理