《智能体设计模式》中文版已发布, 点击阅读

Umi-OCR

一款免费且可离线运行的 OCR 工具,支持截屏识别、批量导入图片、PDF 文档识别与二维码/条码处理。

简介

Umi-OCR 是一款面向桌面用户的免费、开源且支持离线运行的 OCR 工具。它集成了多种文本识别引擎与语言库,支持截屏识别、批量图片导入、PDF 文档识别、二维码/条码识别与文本后处理功能,适用于快速提取图片或文档中的文本信息。该工具在无网络环境下也能高效完成识别任务,便于隐私敏感场景使用。

主要特性

  • 支持截屏识别与批量图片导入,支持常见图片格式(jpg、png、webp 等)。
  • 支持 PDF 文档识别并导出双层可搜索 PDF 或纯文本输出。
  • 内置多语言识别库,支持中文、英文及多种其他语言。
  • 支持二维码/条码识别、页面布局与文本后处理(排序、去水印等)。
  • 提供命令行与 HTTP 接口,便于与其他系统集成。

使用场景

  • 桌面截屏快速识别文字并复制粘贴到文档或笔记中。
  • 批量处理扫描图片或文档以生成可搜索的 PDF 或结构化文本。
  • 在网络受限或需保护隐私的环境下进行离线 OCR 识别。
  • 通过命令行或 HTTP 接口整合到自动化文档处理流水线中。

技术特点

  • 基于 Python 与 QML/Qt 开发,前端采用 QML 提供跨平台桌面 UI,后端集成多种 OCR 引擎和插件机制。
  • 支持插件扩展、国际化(Weblate 翻译支持)以及丰富的导出格式(txt、jsonl、md、csv 等)。
  • 项目采用 MIT 许可证,社区活跃(数万颗星与大量 Fork),便于在商业或研究项目中复用与二次开发。

评论区

Umi-OCR
资源信息
🌱 开源 OCR 📱 应用