📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Agentic 文档抽取

用于调用 LandingAI Agentic 文档抽取 API 的 Python 库,用于从视觉复杂的文档中提取结构化数据。

简介

Agentic 文档抽取是一个 Python 库,封装了 LandingAI 的文档抽取 API,能将视觉复杂的文档(表格、图片、图表)解析为分层的 JSON 和可渲染的 Markdown,支持长 PDF、图片与 URL。

主要特性

  • 一键安装:通过 pip 安装,无需额外依赖配置。
  • 支持任意长度的 PDF、图片和 URL;自动拆分并并行处理大型文档。
  • 输出结构化的分层 JSON 与可直接展示的 Markdown。
  • 提供可视化工具与可选的 grounding 图像导出,便于调试与验证抽取结果。
  • 对 API 错误与限流具有鲁棒的重试与退避策略。

使用场景

  • 从发票、报表、表单和论文中提取结构化数据。
  • 批量处理大型文档集合以构建索引或数据仓库。
  • 将扫描文档转为可检索记录,供搜索和下游分析使用。

技术特点

  • 语言:Python(支持 3.9–3.12)。
  • 可配置并行度(BATCH_SIZE、MAX_WORKERS)与重试策略。
  • 支持 Google Drive、S3、本地目录与 URL 等连接器。
  • 支持字节流输入与基于 pydantic 的字段抽取模型。

评论区

Agentic 文档抽取
资源信息
作者 Landing AI
添加时间 2025-09-29
开源时间 2025-03-12
标签
AI 智能体 开发工具 开源