浙江大学联合苹果、腾讯，打造手机AI助手评测新标准

IP属地中国·北京 科技行者 时间：2026-04-18 04:30:22

这项由浙江大学主导、联合苹果公司与腾讯的研究团队于2026年4月发布，论文编号为arXiv:2604.08455，有兴趣深入探索的读者可以通过该编号查询完整论文。研究的核心问题听起来很简单，却戳中了所有人的痛点：我们的手机AI助手，到底算不算真正"懂你"？
你有没有遇到过这样的场景——对着手机语音说"帮我点份午饭"，结果AI一脸茫然地问你要点什么？或者你明明不吃辣，AI偏偏给你推荐了一家川菜？更别提那种感觉：你每天早上8点都会开启"勿扰模式"，但AI助手还是在最关键的时候弹出一个烦人的提醒。这些经历背后有一个共同的问题：现有的手机AI助手，本质上只是一个听指令的执行机器，而不是一个真正了解你、懂你习惯、能替你着想的"数字管家"。
浙江大学的研究团队决定彻底搞清楚一件事：当前最先进的AI模型，到底有没有能力成为这样一个真正"懂你"的管家？为了回答这个问题，他们构建了一套全新的测试系统，起名叫"KnowU-Bench"（知你基准），专门用来测量AI助手在"真正了解用户"这件事上的能力高下。
这套测试系统的独特之处在于，它不是让AI助手完成那些干净利落、指令清晰的任务，而是专门设计了三类不同难度的挑战，层层递进，步步升级，把AI助手逼到"知己知彼"的极限边缘。研究人员同时对11款当前最主流的AI模型进行了评测，结果发现了一个令人深思的现象：那些在标准任务上表现亮眼的顶尖模型，一旦面对需要"读懂用户心思"的任务，成功率竟然普遍跌破50%——包括赫赫有名的Claude Sonnet 4.6。
一、为什么"听话"不等于"懂你"——研究的起点
日常生活中存在一种非常普遍的误解，认为只要AI能准确执行指令，就算是一个好助手了。但实际情况是，人们在使用手机AI助手时，往往说的是一件事，心里想的却是另一件事。
以"帮我订个午饭"为例，这句话背后隐藏了多少潜台词？你可能不吃花生，可能惯用支付宝，可能喜欢用某一款外卖App，可能讨厌太油腻的食物，可能还有一个常用的送餐地址。这些都是你的"个人偏好"，你不会每次点餐都重复一遍，但你期待AI助手能记得、能懂、能自动帮你搞定。
现有的AI评测系统几乎都集中在测试"指令执行能力"——AI能不能按照清晰的说明一步一步完成任务。就像考驾照只考科目二，但真实驾驶还需要应对堵车、雨雪、迷路……科目二过了不代表你是个好司机，同样地，AI通过了"执行指令"的测试，不代表它能当一个贴心的生活助理。
浙江大学的研究团队发现，现有的评测系统存在三个明显的漏洞。第一个漏洞是，偏好信息测试大多是"翻卷子"——给AI看一份用户的历史记录，问它能不能猜出用户喜好，但这种方式就像开卷考试，真实场景中AI不可能直接读到你的"人设档案"。第二个漏洞是，没有任何测试系统检验AI能不能通过"主动问你"来补全缺失的信息——就像一个懂事的服务员，发现你没说要几分熟，会主动来问，而不是直接上一块半生不熟的牛排。第三个漏洞是，"主动服务"的测试严重不完整——AI不仅要会"该出手时就出手"，还要会"该沉默时绝不打扰"，更要在你拒绝后懂得"收手"，现有测试完全没有涵盖这些能力。
正是为了填补这三个漏洞，KnowU-Bench应运而生。
二、KnowU-Bench是怎么工作的——一套精心设计的"考场"
KnowU-Bench的核心设计理念，可以用一个比喻来理解：它相当于一家专门测试"贴身管家"水平的培训机构，考核内容不是"能不能端盘子"，而是"知不知道主人不吃芫荽""主动帮主人订好了早报""被主人拒绝后不再多嘴"。
整套系统运行在一个真实模拟的安卓手机环境里——一个装在计算机里的虚拟Pixel 8手机，里面安装了23款App，包括购物平台、外卖应用、社交软件、日历、地图、通讯录等，涵盖了日常生活的方方面面。每次测试都从一个固定的"起始状态"开始，确保不同模型之间的对比是公平的。
为了让测试更接近真实情况，研究团队还设计了四类"虚拟用户"，分别是研究员、开发者、学生和奶奶，每种用户都有详细的个人档案，包括年龄、工作、家庭住址、饮食偏好、购物习惯、常用App、生活作息……这些档案被严格保密，AI助手看不到，只有扮演"用户"的模拟程序能看到。AI助手能看到的，只有一份"行为日志"——记录了用户过去在手机上做了什么的流水账，就像你手机里的使用记录。
考场上的任务被分成了三个难度级别，每一级都比前一级更考验AI助手对用户的理解深度。
三、三关考核，层层加码——从"听话"到"懂心"
第一关是"基础任务"，共42道题，考的是最基本的界面操作能力。题目都是明确清晰的指令，比如"帮我在Mastodon上找一条关于人工智能的帖子，然后转发到Mattermost的Town Square频道"。这类任务就像给新招来的助理一份操作手册，按图索骥就能完成，考的是AI能不能看懂手机屏幕、能不能点对按钮、能不能跨越多个App完成一系列操作。这是最低门槛的考核，用来确认AI至少"会操作手机"。
第二关是"个性化任务"，共86道题，难度骤然上升。这些题目的指令是模糊的，隐藏了关键信息。比如"帮我点份今天的午饭，我时间紧，预算合理就好，可以参考我的App偏好"。这句话里，AI需要自己搞清楚：用户喜欢用哪个外卖App？有什么忌口？什么叫"合理预算"？送到哪里？用什么支付方式？
这些信息，AI需要从行为日志里推断，或者通过主动提问来获取。如果日志里有足够的线索，AI应该能推断出用户的习惯；如果线索不够，AI就必须主动问用户——"您平时用哪个App点外卖？""您有什么饮食禁忌吗？"这种"主动问问题的能力"，正是这关考核的核心。
第三关是"主动服务任务"，共64道题，难度达到顶峰。这类任务完全没有明确指令——AI只能看到当前的时间、地点和手机状态，然后自己判断：现在需要主动做点什么吗？做什么？要不要先问问用户？如果用户拒绝了，怎么办？
举个例子，一个早上八点多、在家里、用户刚解锁手机的场景。根据用户的历史行为，AI可能判断出用户每天早上习惯浏览学术论文网站，于是主动帮他打开；或者用户从来没有这个习惯，AI就应该什么都不做，静静等待。更难的情况是：AI提出了一个建议，但用户拒绝了，AI必须懂得"就此打住"，不能一意孤行继续执行。
这三关加在一起，总共192道题，覆盖了从"听话执行"到"主动贴心"的完整能力光谱。
四、"虚拟用户"是怎么扮演的——一个会聊天的AI"演员"
为了让测试真实可信，研究团队需要一个能够扮演用户、回答AI助手提问的系统。这个"虚拟用户"本身也是一个AI模型，具体使用的是GPT-4o来担任这个角色。
这个"用户演员"被注入了完整的用户档案，知道自己的每一个偏好和习惯。当AI助手发出提问，比如"请问您有什么饮食忌口吗"，"用户演员"会按照档案里的设定给出符合角色的回答——比如"我不吃花生，其他都行"。当AI助手在主动服务任务中提出建议，比如"我发现您经常在早上看论文，要不要我帮您打开？"，"用户演员"会根据该用户的档案和当前情境，给出接受或拒绝的回应。
这个设计的精妙之处在于：AI助手永远看不到用户的完整档案，只能通过行为日志和对话来一点一点拼凑出用户的真实偏好。这就像一个新来的秘书，没有前任秘书留下的详细说明书，只有一份老板过去几个月的日程记录，和偶尔的几次当面沟通。能不能从中读懂老板的心思，是衡量这个秘书是否合格的关键标准。
五、成绩单揭晓——顶尖模型的真实表现
测试结果让研究人员颇为震惊，同时也验证了他们最初的猜想：在基础任务上轻松拿高分的模型，一旦面对个性化和主动服务任务，成绩会出现断崖式下跌。
在11款参与评测的模型中，Claude Sonnet 4.6是综合表现最好的，整体成功率达到60.4%。在基础任务的"简单题"中，它拿到了94.4%的成功率，表现相当稳定。然而，当进入个性化任务的"难题"区域，它的成功率跌到了44.2%。考虑到这已经是11款模型里的最高成绩，其他模型的情况可想而知——所有开源模型在个性化难题上的成功率都低于12%。
不同类型的模型表现出鲜明差异。在参与评测的三类模型中，专门针对手机界面操作训练的"GUI专用模型"（包括MAI-UI-8B、UI-Venus-1.5-8B、GUI-Owl-1.5-8B这三款8B参数规模的小模型）在基础任务上表现尚可，但在个性化和主动服务任务上几乎全军覆没。通用开源大模型（包括Qwen系列的几个不同规模版本）随着参数量增加，个性化任务的表现有所提升，但与闭源商业模型之间的差距仍然显著。而闭源商业模型Gemini 3.1 Pro Preview、Seed 2.0 Pro和Claude Sonnet 4.6则总体领先，但同样在高难度任务面前力不从心。
特别值得注意的是，两款在基础任务上都能达到100%成功率的模型——MAI-UI-8B和Seed 2.0 Pro，它们会操作手机、能完成明确指令，但一旦任务需要理解用户偏好，成绩便大幅下滑。这说明"会用手机"和"懂得用户"是两套完全不同的能力，前者并不能带来后者。
六、为什么会失败——深挖错误背后的原因
研究团队对Claude Sonnet 4.6（表现最好的模型）的所有失败案例进行了仔细分析，找到了两类任务失败的主要根源，这两类根源截然不同，揭示了AI助手在"懂你"这件事上的两大软肋。
在个性化任务中，失败最主要的原因不是"弄错了用户的喜好"，而是"根本没有去搞清楚用户的喜好"。具体来说，66.7%的失败属于"没有充分澄清"——AI助手在信息不足的情况下，没有主动提问，而是直接按照自己的猜测行动，结果猜错了。另外27.1%属于"部分满足偏好"——AI知道了用户的主要偏好，但在多个偏好需要同时满足时，顾此失彼，只满足了一部分。真正因为"认错了偏好"而失败的情况只占2.1%，因为"界面操作失误"而失败的只占4.2%。换句话说，失败的根源不在于AI不会操作手机，而在于它不善于主动追问、不善于把用户的反馈真正用起来。
在主动服务任务中，失败的主要原因恰恰相反——不是"问太少"，而是"出手太多"。60%的失败属于"不该出手却出手了"——AI在没有明确触发条件的情况下，自作主张地启动了某个任务，这在真实场景中会让用户感到非常困扰和不安。20%的失败属于"该出手时却袖手旁观"——明明用户有一个固定的日常习惯，AI却没有认出这个触发信号，什么都没做。另外还有5%的失败属于"用户拒绝后仍然一意孤行"——这是最危险的失败类型，就像一个助手被老板明确说了"不用了"，却还是偷偷帮你做完，这不是贴心，是越权。
这两种失败模式说明，主动服务能力的核心不是单纯的技术水平，而是"分寸感"——知道什么时候该出手、什么时候该等待、什么时候该问一下、被拒绝后怎么优雅收场。目前的AI模型在这个"分寸感"上，还差得很远。
七、问得多就能更懂你吗——关于"主动追问"的反直觉发现
一个很自然的想法是：AI助手如果多问几个问题，是不是就能更好地满足用户需求？研究团队的数据给出了一个有些反直觉的答案：问问题的数量，和最终的任务成功率之间，并没有简单的正相关关系。
Claude Sonnet 4.6在个性化任务中平均每个任务只问了0.4个问题，问得相当克制，但它的成功率和平均得分是11款模型中最高的。相比之下，Seed 2.0 Pro平均每个任务问了将近1个问题，问得比Claude多一倍，但最终成绩却不如Claude。两款Qwen模型问的问题数量差不多，但Qwen3.5-122B-A10B的得分明显高于另一款，两款模型都需要超过36步才能完成任务，效率相当低下。
这个发现指向一个更深的道理：问问题只是手段，真正关键的是能不能把用户的回答转化为正确的后续行动。就像一个侦探，光会提问是不够的，还要能从回答中提炼出有价值的线索，并据此做出正确判断。AI助手的瓶颈不在于它问不问，而在于它问了之后能不能真正"听进去"、"用起来"。
八、记忆方式也是一门学问——日志怎么用，结果差很多
研究团队还测试了一个很实际的问题：AI助手以不同方式"记住"用户历史行为，对最终表现有什么影响？
他们设计了两种记忆方式——"全部历史"（把所有行为日志都喂给AI）和"检索式历史"（只给AI看与当前任务最相关的几条记录）。同时，日志还分为"干净版"（只保留与用户偏好相关的记录）和"噪声版"（额外混入了25%的无关记录，比如广告、误触操作、骚扰信息等，模拟真实手机使用的复杂性）。
不同模型在这四种组合下的表现差异非常有趣。Qwen3-VL-8B在"检索式干净日志"下的成功率比"全量干净日志"高出近7个百分点，说明对它来说，少而精的信息比多而杂的信息更有帮助。而UI-Venus-1.5-8B则相反，全量日志对它更有利，检索式日志反而可能丢失掉对它有用的内容。MAI-UI-8B在所有配置下都表现偏弱，而且在"检索式噪声日志"下成绩最差，说明嘈杂的检索信息会严重干扰它的判断。
这个发现说明，没有放之四海而皆准的"最佳记忆方式"，不同模型有不同的"消化信息"习惯。未来真正实用的AI助手，需要根据自身特点找到最合适的个人历史处理方式。
九、四种用户，谁最难伺候——用户角色的影响
研究团队还检验了一个有趣的问题：AI助手对不同类型的用户，理解能力是不是一样强？结果表明，确实存在明显差异。
Claude Sonnet 4.6在四个用户角色上的平均得分相对稳定，波动区间在71.7%到79.4%之间，相对均衡。而Seed 2.0 Pro的波动就大得多——它在"研究员"角色上的得分高达71.3%，但在"奶奶"角色上只有48.5%，相差超过20个百分点。总体来看，"奶奶"这个角色是平均最难伺候的，而"学生"角色则在不同模型间产生的得分分布最分散。
这个现象背后有一个合理的解释：不同类型用户的行为模式、表达方式、偏好结构差异很大。一个AI研究员的行为日志充满了专业信号，比较容易被AI模型识别和推断；而一位年长的奶奶的行为模式可能更多样、更难捉摸，对AI助手的理解能力要求更高。这也说明，真正"懂你"的AI，需要有能力适应截然不同的用户群体，而不只是擅长应对某一类人。
十、怎么打分才公平——混合评分系统的设计
既然测试内容这么复杂，打分方式自然也不能简单地用对错来衡量。研究团队设计了一套"混合评分系统"，把规则判断和AI判断结合起来。
规则判断部分负责检验客观事实：收件人对不对？订单有没有创建成功？闹钟有没有正确设置？时间窗口对不对？这类有明确标准的问题，都由程序自动核验，给出0或1的二元评分。
AI判断部分则负责评估那些"说不清对错"的主观维度：用户偏好有没有被充分满足？沟通方式合不合适？在情境上恰当不恰当？提问的质量好不好？这部分由一个专门调好参数的"评判AI"来打分，它会参考一套针对每道题定制的评分标准，给出从0到1之间的连续分数，并附上打分理由。
最终得分是两部分的加权平均，权重根据每道题的特点动态调整——纯机械操作的任务完全依赖规则判断，纯主观表达的任务完全依赖AI判断，大多数任务介于两者之间。
为了验证这套打分系统的可靠性，研究团队让四位人类专家对26个任务轨迹打了分，然后与混合评分系统的结果进行对比。结果显示，混合系统的平均误差只有0.035，远低于纯规则系统的0.12，说明加入AI判断后，打分结果更接近人类的真实感受。
说到底，KnowU-Bench这项研究揭示的不是某款AI模型的优劣，而是整个AI助手行业面临的一道真正的坎——从"会操作"到"真懂你"，中间还有一段相当漫长的路要走。
那些在标准测试中大放异彩的顶尖模型，一旦面对"替我想清楚，帮我做对"的真实需求，成功率便快速溃败。这说明当前AI助手的训练方向可能存在偏差：我们花了太多精力让AI学会"怎么做"，却没有足够重视让AI学会"该为谁做什么、什么时候做、做到什么程度"。
从这项研究的发现来看，未来真正实用的手机AI助手，需要在至少三个方向上有所突破。一是更聪明的"长期记忆"——不只是存储历史，而是能从混乱的日常行为中提炼出稳定的偏好模式。二是更精准的"缺口识别"——当现有信息不足时，能判断出哪些信息是关键缺口，然后用最少的问题获取最有价值的补充。三是更成熟的"分寸感"——在主动服务中知道进退，既不过分打扰，也不错过真正需要帮忙的时机，被拒绝后能优雅收场而不是一意孤行。
这三项能力，归根结底考验的是AI对"人"的理解深度，而不仅仅是对"任务"的执行效率。一个真正贴心的管家，并不是那个最勤快的，而是那个最"有眼力见儿"的。有兴趣深入了解这项研究细节的读者，可以通过arXiv编号2604.08455查阅完整论文。
Q&A
Q1：KnowU-Bench测试的三类任务分别是什么，难度有什么不同？
A：KnowU-Bench包含三类任务。基础任务共42道，指令明确，考验AI能不能按步骤操作手机App完成具体事项。个性化任务共86道，指令模糊，AI需要从用户的历史行为日志中推断偏好，或主动提问来补全信息，难度明显更高。主动服务任务共64道，完全没有明确指令，AI只看到当前时间、地点和手机状态，要自己判断该做什么、要不要先问用户、被拒绝后怎么办，是三类任务中最具挑战性的。
Q2：KnowU-Bench测试中，为什么AI助手主动问更多问题并不代表表现更好？
A：因为问问题只是手段，关键在于能不能把用户的回答转化成正确的后续行动。Claude Sonnet 4.6每个任务平均只问0.4个问题，但成功率最高；Seed 2.0 Pro问了差不多两倍的问题，成绩却不如Claude。问题数量和成功率之间没有简单正相关，真正的瓶颈在于AI能不能把获取到的偏好信息真正用起来，指导后续的具体操作。
Q3：KnowU-Bench研究中，AI助手在主动服务任务里最常见的失败方式是什么？
A：最常见的失败是"不该出手却出手了"，占主动服务任务失败总数的60%。AI在没有任何明确触发信号的情况下，自作主张地启动了某个任务，用户根本没有这个需求。另外20%是"该出手时袖手旁观"，明明用户有固定习惯，AI却没识别出触发条件，什么都没做。还有5%是最危险的"用户拒绝后还继续"，这三类问题归根结底都属于"分寸感"失调。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

今夜，美股拉升！半导体、光通信暴涨

HPB散热加持！三星HBM5预计2028年实现量产

存储太火抢疯了！SK集团董事长：计划未来五年将晶圆产能翻倍

橡木果发布“本能驱动”技术路线，为机器人赋予“具身本能”

前10全是平板最新iOS性能榜单彻底不见iPhone

微信与华米Ov合作接入语音助理，豆包付费或专注复杂任务，腾讯云公告降价，马尔代夫或限制16岁以下用社交媒体，这就是今天的其他大新闻！

全站最新

今夜，美股拉升！半导体、光通信暴涨

HPB散热加持！三星HBM5预计2028年实现量产

存储太火抢疯了！SK集团董事长：计划未来五年将晶圆产能翻倍

橡木果发布“本能驱动”技术路线，为机器人赋予“具身本能”

热门推荐

今夜，美股拉升！半导体、光通信暴涨

HPB散热加持！三星HBM5预计2028年实现量产

存储太火抢疯了！SK集团董事长：计划未来五年将晶圆产能翻倍

橡木果发布“本能驱动”技术路线，为机器人赋予“具身本能”

前10全是平板最新iOS性能榜单彻底不见iPhone

受“新格伦”爆炸影响 NASA登月考虑换“猎鹰”火箭

微信与华米Ov合作接入语音助理，豆包付费或专注复杂任务，腾讯云公告降价，马尔代夫或限制16岁以下用社交媒体，这就是今天的其他大新闻！

到底是谁，每天在支付宝里玩小游戏啊？

英伟达杀入AI PC：一场芯片战争与一场应用焦虑

存储价格飙升运动相机鼻祖GoPro雪上加霜

微软新开发机Surface RTX Spark Dev Box：专为AI而生

核技术用于垃圾焚烧？中国工程院院士杜祥琬辟谣

微软为AI智能体造了专属搜索引擎

开发者狂喜！腾讯云官宣降价，最高降幅 97.5%，AI 落地成本大降

阿里又发了款智能体模型：11小时造出学英语App，还能看懂地铁线路图