《智能体设计模式》中文版已发布, 点击阅读

Computer Use Preview

一个基于浏览器自动化的示例智能体,演示如何使用 Gemini Developer API 或 Vertex AI 在真实浏览器中执行多步骤任务,用于研究和原型验证。

简介

Computer Use Preview 是一个基于浏览器自动化的示例智能体,旨在展示如何通过 Gemini Developer API 或 Vertex AI 在真实浏览器环境中执行自然语言指令并自动完成网页交互任务。该项目提供了可复现的运行示例和多种场景脚本,帮助研究人员与工程师理解智能体如何拆解多步骤任务、管理会话状态,以及在浏览器中执行诸如导航、检索、表单填写与截图等操作。项目同时包含测试用例与调试工具,便于在本地或 CI 环境中验证行为并观察执行过程。

主要特性

  • 支持通过 Gemini 开发者 API 或 Vertex AI 两种后端运行模式,便于在不同云服务或私有环境中切换。
  • 提供基于 Playwright 的浏览器自动化能力,包含初始 URL 注入、操作回放与脚本化的交互管理,支持截图与可视化调试。
  • 含有示例场景、单元测试与集成测试套件,便于快速上手、复现研究结果和在项目中扩展行为。
  • 采用模块化结构,便于替换后端模型、扩展工具或集成更多浏览器后端。

使用场景

  • 用于快速构建并验证自动化网页任务的原型,例如批量检索、表单自动填写或流程化测试。
  • 作为研究与教学范例,展示多步骤智能体如何在真实浏览器中规划动作、处理错误并回退到安全状态以保证可控性。
  • 在受控实验中评估 LLM 驱动的浏览器操作的稳定性、可解释性与资源消耗,为生产化部署提供参考。

技术特点

  • 使用 Python 编写,借助 Playwright 控制浏览器,适配本地开发与 CI 自动化环境。
  • 配置以环境变量为主,包含依赖清单与示例脚本,支持在不同后端(Gemini 或 Vertex AI)之间切换。
  • 项目采用 Apache-2.0 许可证,代码可在研究或商业场景下复用;代码结构模块化,便于扩展和集成其他观测或安全检查组件。

评论区

Computer Use Preview
资源信息
🦾 智能体 🕷️ 浏览器自动化 🌱 开源