第十届中国开源年会,12月6-7日,北京, 查看详情

Mobile-Agent

Mobile-Agent 是一套面向 GUI 自动化与多模态交互的智能体家族, 提供跨平台能力与演示。

详细介绍

Mobile-Agent 是一套由 Tongyi Lab / Alibaba 推出的跨平台 GUI 智能体家族,针对桌面与移动设备的 GUI 操作进行感知、规划与执行。项目强调多模态感知与端到端操作能力,适合自动化 GUI 任务、测试与人机交互增强。

主要特性

  • 基于视觉的 GUI 感知与定位。
  • 多模态策略(文本+视觉)驱动的规划与执行。
  • 多平台支持(PC/Android/iOS)与演示示例。
  • 丰富的子项目与研究论文支持。

使用场景

适用于 GUI 自动化测试、桌面/移动操作自动化、示例驱动的可复现任务(如自动化表单填写、测试用例执行)以及研究场景下的交互式代理验证。

技术特点

整合了视觉感知、规划与执行模块,强调对 GUI 元素的鲁棒识别与多步操作的可恢复性,兼顾学术研究与工程化部署需求。

Mobile-Agent
资源信息
🦾 智能体 🎨 多模态 📱 应用 🌱 开源