Dolphin (Document Image Parsing via Heterogeneous Anchor Prompting) 是一种遵循分析后解析范式的新型多模态文档图像解析模型。该仓库包含 Dolphin 的演示代码和预训练模型。
概述
文档图像解析具有挑战性,因为其元素复杂交织,如文本段落、图形、公式和表格。Dolphin 通过两阶段方法解决这些挑战:
- 第一阶段:通过按自然阅读顺序生成元素序列进行全面的页面级布局分析
- 第二阶段:使用异构锚点和任务特定提示高效并行解析文档元素
Dolphin 在各种页面级和元素级解析任务中实现了良好的性能,同时通过其轻量级架构和并行解析机制确保了卓越的效率。