当前位置: 首页 » 资讯 » 科技头条 » 正文

通义全尺寸GUI智能体基座模型MAI-UI开源:原生具备用户交互能力

IP属地 中国·北京 编辑:郑佳 凤凰网科技 时间:2025-12-29 14:08:00

12月29日,通义实验室多模态交互团队近日宣布开源其通用GUI智能体基座模型MAI-UI。该模型旨在通过理解屏幕界面并执行操作,完成跨应用、多步骤的复杂任务,例如查询车票、在通讯群组同步信息、调整会议安排等。

据介绍,MAI-UI具备在指令不明确时主动向用户提问澄清的能力,并支持通过调用结构化工具(如地图搜索、路线规划API)来替代繁琐的界面点击操作,以提高任务执行的成功率与效率。该模型家族包含2B、8B等不同参数规模的版本,其中2B与8B模型已开源。

根据团队公布的评测数据,MAI-UI在ScreenSpot-Pro、AndroidWorld等多个GUI理解与任务执行基准测试中取得了当前领先的成绩。该模型适用于手机、电脑等不同操作系统的界面交互场景。

标签: 模型 界面 mai gui 基准 模态 参数 屏幕

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。