详细介绍
Parsr 是 AXA 开源的轻量级文档解析工具链,用于将 PDF、图像、DOCX、EML 等多种格式的文档转换为可直接使用的结构化数据(JSON、Markdown、CSV/Pandas DataFrame 或纯文本)。平台侧重文档清洗与层级重建,输出包含标注的文本、段落、表格与元信息,便于下游的数据分析与自动化流水线部署。
主要特性
- 多格式支持:处理 PDF、扫描图像、Office 文档与邮件等多种输入格式。
- 文档清洗与重建:恢复行、段落与层次结构,检测标题、列表、页码、页眉/页脚与链接。
- 表格与列表识别:提取表格为结构化 CSV/DF 格式,支持复杂表格布局识别。
- 部署友好:提供 API、CLI、Docker 镜像与可视化查看器,支持私有化部署。
使用场景
适用于文档归档与检索预处理、发票与报表抽取、合同与合规审查、OCR 后的结构化数据生成、以及任何需要将非结构化文档转为可分析数据的 ETL 场景。可在本地或受控私有环境中运行以满足合规与隐私要求。
技术特点
- 模块化处理链:由清洗、布局分析、OCR 接入、表格解析与导出模块组成,易于扩展与替换组件。
- 多引擎兼容:可接入 Tesseract、PDF.js、Camelot 等第三方组件以提升识别能力。
- 可编程接口:提供 REST API 与 Python 客户端,方便与数据科学与流水线工具集成。
- 开源许可:采用 Apache-2.0 许可证,便于企业在私有化环境中部署与定制。