📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Self-Operating Computer

一个允许多模态模型以人类输入/输出模拟形式操作电脑的框架,支持语音、OCR 与多模型集成。

简介

Self-Operating Computer 框架让多模态大模型通过观察屏幕并执行鼠标键盘操作来完成任务,支持多种模型与输入模式,适用于自动化脚本、辅助操作与人机协作研究。

主要特性

  • 多模型支持:兼容 GPT-4 系列、Gemini Vision、Claude、Qwen-VL、LLaVa 等多模态模型。
  • 多种操作模式:包含语音模式、OCR 模式与 Set-of-Mark(SoM)视觉提示以增强视觉定位能力。
  • 简单部署:提供 pip 安装、命令行 operate 启动与 Docker 示例,支持 macOS/Windows/Linux。

使用场景

  • 自动化桌面任务与可视化测试脚本。
  • 研究多模态模型在真实交互环境下的操作能力与可用性评估。

技术特点

  • 纯 Python 实现,集成多种模型后端并支持本地/云端部署;提供详细的示例和音频/OCR 支持模块。

评论区

Self-Operating Computer
资源信息
作者 OthersideAI
添加时间 2025-10-02
开源时间 2023-11-04
标签
开源 框架