阿里巴巴通义实验室推出 MAI-UI:超越同行的基础 GUI 智能代理家族

AI行业资讯3周前发布本文共计772个字,预计阅读时长3分钟。 墨白
12.7K 00
广告也精彩

阿里巴巴。通义实验室最新发布了多模态GUI智能代理系列——MAI-UI。该系统不仅能够执行人机交互任务,还融合了MCP工具调用、端云协同以及在线强化学习技术,在通用GUI理解与移动端界面导航方面实现突破,性能表现超过Gemini2.5Pro、Seed1.8及UI-Tars2等同类系统。

阿里巴巴通义实验室推出 MAI-UI:超越同行的基础 GUI 智能代理家族

MAI-UI基于Qwen3VL架构开发,提供包括2B、8B、32B和235B A22B在内的多种参数规模模型。该系统可接受文字指令与界面截图作为输入,并输出结构化操作指令,实现在真实Android环境中的交互执行,支持点击、滑动、文本输入及系统按键等多种操作。同时,MAI-UI还具备应答询问、请求用户澄清模糊意图的能力,并能通过MCP工具调用外部接口,实现在同一任务流程中混合GUI操作、语言回应与API级动作。

阿里巴巴通义实验室推出 MAI-UI:超越同行的基础 GUI 智能代理家族

在GUI基础能力之上,MAI-UI借助自我演进的数据管道与在线强化学习框架,持续提升其导航鲁棒性。通义实验室从应用手册、设计场景与公共数据集中提取种子任务,通过多智能体与人工标注协同执行生成任务轨迹,进而持续优化导航策略。

在MobileWorld基准测试中,MAI-UI取得41.7%的任务完成率。在AndroidWorld测试中,其最大规模变体更达到76.7%的成功率,显著领先于其他参与对比的系统。

MAI-UI的发布标志着移动端GUI智能代理技术迈入新阶段,为智能设备处理复杂操作场景提供了更高效、更灵活的解决方案。

项目地址

GitHub: https://github.com/Tongyi-MAI/MAI-UI

核心要点

  • MAI-UI是阿里巴巴通义实验室推出的多模态GUI智能代理系列,集成多项前沿技术
  • 支持多种交互操作,可在真实Android环境中执行复杂任务
  • 在MobileWorld及AndroidWorld等权威测试中表现超越主流同类系统
© 版权声明

相关文章