📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Crawlee

用于构建可靠爬虫与浏览器自动化的开源 Python 库,支持异步、代理轮换与持久化存储。

简介

Crawlee 是一个面向生产级爬虫与浏览器自动化的开源 Python 库,提供统一接口来处理 HTTP 与无头浏览器抓取,支持并发、代理轮换、请求重试与持久化队列。

主要特性

  • 多种爬虫类型:支持基于 HTTP 的高速爬虫和基于 Playwright 的浏览器爬虫。
  • 异步与类型提示:基于 asyncio,提供良好的开发者体验与类型注解。
  • 内置重试、代理与会话管理:减少被封禁风险并提高抓取稳定性。
  • 可持久化的数据存储:提供数据集和 KV 存储等多种持久化选项。

使用场景

  • 大规模网页抓取与数据采集,用于训练数据、RAG 或分析管线。
  • 需要执行 JavaScript 或模拟用户交互的抓取场景(PlaywrightCrawler)。
  • 在 Apify 平台或自托管环境中运行长期爬虫任务与数据流水线。

技术特点

  • Python 实现,支持现代 Asyncio 生态与类型注释,易于在 IDE 中开发。
  • 与 Playwright、BeautifulSoup 等常见工具无缝集成,灵活选择抓取策略。
  • 提供 CLI 与模板快速启动爬虫项目,并支持多种可扩展的存储后端。

评论区

Crawlee
资源信息
作者 Apify
添加时间 2025-10-01
标签
开发与调试工具 开源项目