📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

dots.ocr

基于单一视觉语言模型的多语种文档布局解析器,集成布局检测、OCR 与阅读顺序恢复,适用于表格与公式等复杂文档要素解析。

简介

dots.ocr 是一个基于 1.7B 视觉语言模型的多语种文档解析项目,融合布局检测与内容识别,能在保持阅读顺序的同时对文本、表格与公式进行解析。项目提供命令行工具、模型权重下载脚本与多种部署选项(vLLM、Hugging Face、Docker)。

主要特性

  • 单模型完成布局检测与识别任务,架构精简且高效
  • 在 OmniDocBench 等基准上取得优秀的端到端识别与布局性能
  • 支持多语种(含低资源语言)、表格与公式识别
  • 提供 demo(Web Gradio)、Docker 镜像与多种推理后端(vLLM、transformers)

使用场景

  • 面向大规模文档解析的研发与基准对比
  • 将扫描件或 PDF 转换为结构化片段,用于构建 RAG 检索索引
  • 学术文献、报告与图表的批量抽取与元数据提取
  • 在对隐私敏感的场景下进行本地化部署与推理

技术特点

  • 以 Python 实现,兼容不同平台,提供 pip 安装与 Docker 镜像
  • 基于单一 VLM(1.7B)实现联合布局与 OCR,支持通过不同 prompt 切换任务
  • 支持与 vLLM 集成以获得更高吞吐与实时推理体验

评论区

dots.ocr
资源信息
作者 小红书
添加时间 2025-09-19
标签
开源项目 图像生成 开发与调试工具 RAG