简介
Self-Operating Computer 框架让多模态大模型通过观察屏幕并执行鼠标键盘操作来完成任务,支持多种模型与输入模式,适用于自动化脚本、辅助操作与人机协作研究。
主要特性
- 多模型支持:兼容 GPT-4 系列、Gemini Vision、Claude、Qwen-VL、LLaVa 等多模态模型。
- 多种操作模式:包含语音模式、OCR 模式与 Set-of-Mark(SoM)视觉提示以增强视觉定位能力。
- 简单部署:提供 pip 安装、命令行
operate
启动与 Docker 示例,支持 macOS/Windows/Linux。
使用场景
- 自动化桌面任务与可视化测试脚本。
- 研究多模态模型在真实交互环境下的操作能力与可用性评估。
技术特点
- 纯 Python 实现,集成多种模型后端并支持本地/云端部署;提供详细的示例和音频/OCR 支持模块。