Midscene.js

一个使用视觉语言模型驱动的跨平台 UI 自动化框架，用截图为主的纯视觉定位与操作来编写自动化脚本。

web-infra-dev · Since 2024-07-23

正在加载评分...

详细介绍

Midscene.js 是一个以视觉语言模型为核心的跨平台 UI 自动化框架，采用以截图为主的纯视觉定位与操作方式，旨在让人更自然地用类人语言或脚本描述自动化目标与步骤。项目既提供 JavaScript SDK 与 YAML 脚本接口，也能与 Puppeteer / Playwright 集成，或通过 Bridge Mode 控制桌面浏览器，此外还提供零代码的 Chrome 扩展与移动 playground，降低上手门槛。

主要特性

使用视觉语言模型进行元素定位与交互，减少对 DOM 的依赖。
支持 Web、Android、iOS 等多平台，提供统一的 JS SDK 与脚本格式。
内置回放与可视化调试工具，便于定位与复现自动化流程。
支持缓存重放与 MCP 集成，提升执行效率并便于上层智能体编排。

使用场景

Midscene 适用于端到端 UI 测试、自动化运营（如自动化表单填写、示例操作）、跨平台演示脚本、以及需要视觉理解的 RPA 场景。对希望用自然语言或轻量脚本描述复杂交互的团队尤其有价值，可用于降低自动化脚本维护成本并加速迭代。

技术特点

项目强调纯视觉路径（可选 DOM 模式用于数据抽取），并兼容多种视觉语言模型（如 Qwen-VL、UI-TARS 等），以减小 token 成本并提升跨平台健壮性。架构上提供可自托管选项和开放生态的 SDK，使团队可以在本地或云端部署并与现有测试框架集成。

核心内容

核心内容

技术专栏

技术专栏

更多内容

更多内容

AI

AI

云原生

云原生

更多

更多

精选资源

精选资源

交流与反馈

交流与反馈

更多

更多

快速链接

快速链接

微信公众号

微信公众号

微信联系

微信联系

Midscene.js

详细介绍

主要特性

使用场景

技术特点

评分详情

相关资源

5ire

A2A

A2UI