简介
Crawlee 是一个面向生产级爬虫与浏览器自动化的开源 Python 库,提供统一接口来处理 HTTP 与无头浏览器抓取,支持并发、代理轮换、请求重试与持久化队列。
主要特性
- 多种爬虫类型:支持基于 HTTP 的高速爬虫和基于 Playwright 的浏览器爬虫。
- 异步与类型提示:基于 asyncio,提供良好的开发者体验与类型注解。
- 内置重试、代理与会话管理:减少被封禁风险并提高抓取稳定性。
- 可持久化的数据存储:提供数据集和 KV 存储等多种持久化选项。
使用场景
- 大规模网页抓取与数据采集,用于训练数据、RAG 或分析管线。
- 需要执行 JavaScript 或模拟用户交互的抓取场景(PlaywrightCrawler)。
- 在 Apify 平台或自托管环境中运行长期爬虫任务与数据流水线。
技术特点
- Python 实现,支持现代 Asyncio 生态与类型注释,易于在 IDE 中开发。
- 与 Playwright、BeautifulSoup 等常见工具无缝集成,灵活选择抓取策略。
- 提供 CLI 与模板快速启动爬虫项目,并支持多种可扩展的存储后端。