📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Unstract

无代码 LLM 平台,用于将非结构化文档转化为结构化数据并快速发布 API 与 ETL 管道。

简介

Unstract 是一个面向数据工程与产品团队的无代码 LLM 平台,帮助将非结构化文档(PDF、网页、文本)提取并结构化,快速构建 API 与 ETL 管道以支持下游应用。它将复杂的数据处理流程可视化并简化为低代码或无代码的配置。

平台通过图形化流程设计器与内置解析模块,让非工程背景的产品与数据团队也能将文档快速转化为可搜索和可分析的结构化数据。对于需要把文档资产快速产品化的团队,Unstract 能显著缩短从数据采集到 API 暴露的交付周期。

主要特性

  • 文档结构化:内置文档解析与抽取流程,支持多种文档格式。
  • 无代码平台:通过图形化界面设计数据流与 ETL 管道,降低使用门槛。
  • 多模型接入:支持将不同 LLM 或检索组件接入到处理链路中。

使用场景

  • 数据上游处理:将历史文档、合规材料或客户资料转为结构化数据以供分析。
  • 快速 API 化:无需深度工程即可将文档处理流程暴露为 API 服务。
  • 知识库建设:构建面向检索与问答的结构化知识来源。

技术特点

  • 技术栈:以 Python 和现代云服务为基础,结合可视化构建器。
  • 可扩展性:支持插件与多模型集成,便于适配不同数据源。
  • 开源许可:AGPL-3.0,鼓励社区参与与自托管部署。

评论区

Unstract
资源信息
💾 数据 🛠️ 开发工具 🌱 开源