简介
Umi-OCR 是一款面向桌面用户的免费、开源且支持离线运行的 OCR 工具。它集成了多种文本识别引擎与语言库,支持截屏识别、批量图片导入、PDF 文档识别、二维码/条码识别与文本后处理功能,适用于快速提取图片或文档中的文本信息。该工具在无网络环境下也能高效完成识别任务,便于隐私敏感场景使用。
主要特性
- 支持截屏识别与批量图片导入,支持常见图片格式(jpg、png、webp 等)。
- 支持 PDF 文档识别并导出双层可搜索 PDF 或纯文本输出。
- 内置多语言识别库,支持中文、英文及多种其他语言。
- 支持二维码/条码识别、页面布局与文本后处理(排序、去水印等)。
- 提供命令行与 HTTP 接口,便于与其他系统集成。
使用场景
- 桌面截屏快速识别文字并复制粘贴到文档或笔记中。
- 批量处理扫描图片或文档以生成可搜索的 PDF 或结构化文本。
- 在网络受限或需保护隐私的环境下进行离线 OCR 识别。
- 通过命令行或 HTTP 接口整合到自动化文档处理流水线中。
技术特点
- 基于 Python 与 QML/Qt 开发,前端采用 QML 提供跨平台桌面 UI,后端集成多种 OCR 引擎和插件机制。
- 支持插件扩展、国际化(Weblate 翻译支持)以及丰富的导出格式(txt、jsonl、md、csv 等)。
- 项目采用 MIT 许可证,社区活跃(数万颗星与大量 Fork),便于在商业或研究项目中复用与二次开发。