简介
Agentic 文档抽取是一个 Python 库,封装了 LandingAI 的文档抽取 API,能将视觉复杂的文档(表格、图片、图表)解析为分层的 JSON 和可渲染的 Markdown,支持长 PDF、图片与 URL。
主要特性
- 一键安装:通过 pip 安装,无需额外依赖配置。
- 支持任意长度的 PDF、图片和 URL;自动拆分并并行处理大型文档。
- 输出结构化的分层 JSON 与可直接展示的 Markdown。
- 提供可视化工具与可选的 grounding 图像导出,便于调试与验证抽取结果。
- 对 API 错误与限流具有鲁棒的重试与退避策略。
使用场景
- 从发票、报表、表单和论文中提取结构化数据。
- 批量处理大型文档集合以构建索引或数据仓库。
- 将扫描文档转为可检索记录,供搜索和下游分析使用。
技术特点
- 语言:Python(支持 3.9–3.12)。
- 可配置并行度(BATCH_SIZE、MAX_WORKERS)与重试策略。
- 支持 Google Drive、S3、本地目录与 URL 等连接器。
- 支持字节流输入与基于 pydantic 的字段抽取模型。