简介
Tesseract OCR 是由 HP 最初开发、后由 Google 维护的开源 OCR 引擎,采用 LSTM 神经网络,支持多种语言和图片格式,适用于多种文本识别场景。
主要特性
- 支持 100+ 种语言识别
- 多种图片格式(PNG、JPEG、TIFF)
- 输出格式丰富(TXT、PDF、hOCR、TSV 等)
- 可训练自定义语言模型
- 完全开源,社区活跃
使用场景
- 文档数字化与归档
- 图片、扫描件文本提取
- 票据、证件自动识别
- 开发集成 OCR 能力
技术特点
Tesseract 采用 LSTM 深度学习算法,支持 UTF-8 编码,兼容多平台,提供 C/C++ API 及多语言绑定,易于集成和扩展。