Firecrawl 是一个 API 服务,可以获取 URL,爬取网站内容,并将其转换为干净的 markdown 或结构化数据。它可以爬取所有可访问的子页面,并为每个页面提供干净的数据,无需站点地图。通过 Firecrawl,您可以为 AI 应用提供来自任何网站的干净数据。
主要特性:
- 高级爬取功能:能够爬取整个网站的所有可访问子页面
- 数据转换:将网页内容转换为干净的 markdown 或结构化数据
- 无需站点地图:自动发现和爬取网站内容,无需提供站点地图
- 适用于 AI 应用:为 LLM 应用提供准备就绪的数据格式
该仓库正在开发中,我们仍在将自定义模块集成到单体仓库中。它尚未完全准备好用于自托管部署,但您可以在本地运行它。