简介
dots.ocr 是一个基于 1.7B 视觉语言模型的多语种文档解析项目,融合布局检测与内容识别,能在保持阅读顺序的同时对文本、表格与公式进行解析。项目提供命令行工具、模型权重下载脚本与多种部署选项(vLLM、Hugging Face、Docker)。
主要特性
- 单模型完成布局检测与识别任务,架构精简且高效
- 在 OmniDocBench 等基准上取得优秀的端到端识别与布局性能
- 支持多语种(含低资源语言)、表格与公式识别
- 提供 demo(Web Gradio)、Docker 镜像与多种推理后端(vLLM、transformers)
使用场景
- 面向大规模文档解析的研发与基准对比
- 将扫描件或 PDF 转换为结构化片段,用于构建 RAG 检索索引
- 学术文献、报告与图表的批量抽取与元数据提取
- 在对隐私敏感的场景下进行本地化部署与推理
技术特点
- 以 Python 实现,兼容不同平台,提供 pip 安装与 Docker 镜像
- 基于单一 VLM(1.7B)实现联合布局与 OCR,支持通过不同 prompt 切换任务
- 支持与 vLLM 集成以获得更高吞吐与实时推理体验