简介
Computer Use Preview 是一个基于浏览器自动化的示例智能体,旨在展示如何通过 Gemini Developer API 或 Vertex AI 在真实浏览器环境中执行自然语言指令并自动完成网页交互任务。该项目提供了可复现的运行示例和多种场景脚本,帮助研究人员与工程师理解智能体如何拆解多步骤任务、管理会话状态,以及在浏览器中执行诸如导航、检索、表单填写与截图等操作。项目同时包含测试用例与调试工具,便于在本地或 CI 环境中验证行为并观察执行过程。
主要特性
- 支持通过 Gemini 开发者 API 或 Vertex AI 两种后端运行模式,便于在不同云服务或私有环境中切换。
- 提供基于 Playwright 的浏览器自动化能力,包含初始 URL 注入、操作回放与脚本化的交互管理,支持截图与可视化调试。
- 含有示例场景、单元测试与集成测试套件,便于快速上手、复现研究结果和在项目中扩展行为。
- 采用模块化结构,便于替换后端模型、扩展工具或集成更多浏览器后端。
使用场景
- 用于快速构建并验证自动化网页任务的原型,例如批量检索、表单自动填写或流程化测试。
- 作为研究与教学范例,展示多步骤智能体如何在真实浏览器中规划动作、处理错误并回退到安全状态以保证可控性。
- 在受控实验中评估 LLM 驱动的浏览器操作的稳定性、可解释性与资源消耗,为生产化部署提供参考。
技术特点
- 使用 Python 编写,借助 Playwright 控制浏览器,适配本地开发与 CI 自动化环境。
- 配置以环境变量为主,包含依赖清单与示例脚本,支持在不同后端(Gemini 或 Vertex AI)之间切换。
- 项目采用 Apache-2.0 许可证,代码可在研究或商业场景下复用;代码结构模块化,便于扩展和集成其他观测或安全检查组件。