📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Tesseract OCR

Tesseract 是一款功能强大的开源光学字符识别(OCR)引擎,支持 100 多种语言,广泛应用于文本提取和文档数字化。

简介

Tesseract OCR 是由 HP 最初开发、后由 Google 维护的开源 OCR 引擎,采用 LSTM 神经网络,支持多种语言和图片格式,适用于多种文本识别场景。

主要特性

  • 支持 100+ 种语言识别
  • 多种图片格式(PNG、JPEG、TIFF)
  • 输出格式丰富(TXT、PDF、hOCR、TSV 等)
  • 可训练自定义语言模型
  • 完全开源,社区活跃

使用场景

  • 文档数字化与归档
  • 图片、扫描件文本提取
  • 票据、证件自动识别
  • 开发集成 OCR 能力

技术特点

Tesseract 采用 LSTM 深度学习算法,支持 UTF-8 编码,兼容多平台,提供 C/C++ API 及多语言绑定,易于集成和扩展。

评论区

Tesseract OCR
资源信息
作者 Stefan Weil, Zdenko Podobny 等
添加时间 2025-09-11
标签
开源项目 实用工具