详细介绍
Pipet 是由 bjesus 开发的一款命令行网页抓取与数据提取工具,定位为“瑞士军刀”式的轻量抓取器。它支持三种查询模式:HTML(基于 CSS 选择器)、JSON(使用 GJSON 语法)和 Playwright(在客户端执行 JavaScript),并通过调用 curl 或嵌入的浏览器完成资源获取。Pipet 采用 .pipet 查询脚本描述抓取流程,结合类 Unix 管道与模板渲染,能将抓取结果直接输出为文本、JSON 或自定义模板渲染,便于在终端、自动化脚本和 CI 中复用。
主要特性
- 多模式抓取:原生支持 HTML、JSON 与 Playwright 三种查询方式。
- 命令行友好:与
curl、管道和常见 Unix 工具无缝协作,便于组合使用。 - 灵活输出:支持纯文本、JSON 导出与模板渲染三种输出格式。
- 多渠道安装:提供二进制 Release,同时支持 Homebrew、AUR 与 Nix 包管理安装。
使用场景
- 实时监控网页内容变化并在更新时触发通知或脚本执行。
- 从复杂页面或 API 中提取结构化数据并导出为 CSV/JSON,便于后续分析。
- 在开发和测试中快速验证抓取规则与选择器的正确性。
- 将轻量抓取能力嵌入 CI/自动化流水线以获取实时状态或指标。
技术特点
- 使用 Go 语言实现,生成独立可执行二进制,运行开销小且启动快。
- 集成
curl与 Playwright 作为多样化的资源获取后端,适应不同页面场景。 - 使用 GJSON 提供高效的 JSON 路径查询,方便处理嵌套 API 返回。
- 仓库文档与示例丰富,包含安装、使用与常见示例,便于上手与扩展。