阅读《智能体构建指南》,了解我对 AI 原生基础设施与智能体运行时的工程思考。

Midscene.js

一个使用视觉语言模型驱动的跨平台 UI 自动化框架,用截图为主的纯视觉定位与操作来编写自动化脚本。

web-infra-dev · Since 2024-07-23
正在加载评分...

详细介绍

Midscene.js 是一个以视觉语言模型为核心的跨平台 UI 自动化框架,采用以截图为主的纯视觉定位与操作方式,旨在让人更自然地用类人语言或脚本描述自动化目标与步骤。项目既提供 JavaScript SDK 与 YAML 脚本接口,也能与 Puppeteer / Playwright 集成,或通过 Bridge Mode 控制桌面浏览器,此外还提供零代码的 Chrome 扩展与移动 playground,降低上手门槛。

主要特性

  • 使用视觉语言模型进行元素定位与交互,减少对 DOM 的依赖。
  • 支持 Web、Android、iOS 等多平台,提供统一的 JS SDK 与脚本格式。
  • 内置回放与可视化调试工具,便于定位与复现自动化流程。
  • 支持缓存重放与 MCP 集成,提升执行效率并便于上层智能体编排。

使用场景

Midscene 适用于端到端 UI 测试、自动化运营(如自动化表单填写、示例操作)、跨平台演示脚本、以及需要视觉理解的 RPA 场景。对希望用自然语言或轻量脚本描述复杂交互的团队尤其有价值,可用于降低自动化脚本维护成本并加速迭代。

技术特点

项目强调纯视觉路径(可选 DOM 模式用于数据抽取),并兼容多种视觉语言模型(如 Qwen-VL、UI-TARS 等),以减小 token 成本并提升跨平台鲁棒性。架构上提供可自托管选项和开放生态的 SDK,使团队可以在本地或云端部署并与现有测试框架集成。

评论区

Midscene.js
评分详情
⚙️ 自动化 🕷️ 浏览器自动化 📦 SDK 🏗️ 框架 🎨 多模态