第十届中国开源年会,12月6-7日,北京, 查看详情

Pipet

Pipet 是一个面向开发者的命令行网页抓取与数据提取工具,支持 HTML、JSON 与 Playwright 三种查询模式。

详细介绍

Pipet 是由 bjesus 开发的一款命令行网页抓取与数据提取工具,定位为“瑞士军刀”式的轻量抓取器。它支持三种查询模式:HTML(基于 CSS 选择器)、JSON(使用 GJSON 语法)和 Playwright(在客户端执行 JavaScript),并通过调用 curl 或嵌入的浏览器完成资源获取。Pipet 采用 .pipet 查询脚本描述抓取流程,结合类 Unix 管道与模板渲染,能将抓取结果直接输出为文本、JSON 或自定义模板渲染,便于在终端、自动化脚本和 CI 中复用。

主要特性

  • 多模式抓取:原生支持 HTML、JSON 与 Playwright 三种查询方式。
  • 命令行友好:与 curl、管道和常见 Unix 工具无缝协作,便于组合使用。
  • 灵活输出:支持纯文本、JSON 导出与模板渲染三种输出格式。
  • 多渠道安装:提供二进制 Release,同时支持 Homebrew、AUR 与 Nix 包管理安装。

使用场景

  • 实时监控网页内容变化并在更新时触发通知或脚本执行。
  • 从复杂页面或 API 中提取结构化数据并导出为 CSV/JSON,便于后续分析。
  • 在开发和测试中快速验证抓取规则与选择器的正确性。
  • 将轻量抓取能力嵌入 CI/自动化流水线以获取实时状态或指标。

技术特点

  • 使用 Go 语言实现,生成独立可执行二进制,运行开销小且启动快。
  • 集成 curl 与 Playwright 作为多样化的资源获取后端,适应不同页面场景。
  • 使用 GJSON 提供高效的 JSON 路径查询,方便处理嵌套 API 返回。
  • 仓库文档与示例丰富,包含安装、使用与常见示例,便于上手与扩展。
Pipet
资源信息
💻 命令行 🛠️ 开发工具 🌱 开源