《智能体设计模式》中文版已发布, 点击阅读

Dolphin

基于异构锚点提示的文档图像解析模型,提供高效的页面级与元素级解析能力。

简介

Dolphin(Document Image Parsing via Heterogeneous Anchor Prompting)是一种针对文档图像解析的轻量化多模态模型,采用“先解析版式再并行解析元素”的两阶段方法,兼顾性能与效率,适用于页面级与元素级的结构化解析任务。

主要特性

  • 两阶段 analyze-then-parse 流程,先生成自然阅读顺序的元素序列,再并行解析各元素。
  • 异构锚点提示(heterogeneous anchors)支持不同类型元素(段落、表格、公式、图像等)的定制解析策略。
  • 轻量并行的解码机制,兼顾速度与效果,支持多页 PDF 批量解析。
  • 原生支持 Hugging Face 集成,提供预训练模型与 demo 环境。

使用场景

  • 将扫描或拍照的文档转换为结构化 JSON/Markdown(OCR + 结构化解析)。
  • 表格与公式识别与抽取,用于学术论文、报告和发票等文档处理。
  • 批量 PDF 文档的自动化处理与信息抽取(检索、索引、数据集构建)。

技术特点

  • 基于单一视觉语言模型(VLM)的元素序列生成与任务特定提示。
  • 并行解析机制显著提升吞吐率,适合大规模文档处理流水线。
  • 提供多种部署选项(原框架、Hugging Face 格式、TensorRT/vLLM 加速等)。

评论区

Dolphin
资源信息
🌱 开源 🧲 实用工具