![]()
这项由浙江大学人工智能研究团队完成的研究,以预印本形式发布于2026年5月31日,论文编号为arXiv:2606.01247,感兴趣的读者可通过该编号查阅完整论文。
**一个你可能从未意识到自己每天都在做的事**
你有没有试过,朋友发给你一张在某个地方拍的照片,然后你也想在同一个角度拍一张?你会怎么做?你会先观察照片里出现了什么家具、窗户在哪里、光线从哪个方向射来,然后走动几步,左转右转,蹲下或抬头,不断调整,直到眼前的画面跟朋友的照片大致重叠,这才按下快门。
这个过程对人类来说轻而易举,几乎是本能反应。然而,对于当今最先进的AI来说,这居然是一件极度困难的事情。浙江大学的研究团队正是针对这个问题展开了深入研究,他们将这个任务命名为"目标视角复现"(Target Viewpoint Reproduction,简称TVR),并构建了一套完整的测试和训练体系——TVRBench——来衡量AI在这方面的能力究竟有多强,以及如何提升它。
**一、为什么"找到正确角度"对AI来说这么难?**
人类在"找角度"这件事上,其实同时在做好几件复杂的事情:把眼前的画面和目标照片进行比较,判断自己需要向前走还是向后退、需要向左转还是向右转、需要抬头还是低头,然后用身体动作来弥补这个差距,同时还要记住自己走过哪些路,以免原地打转,最后还要在恰当的时机判断"够了,就是这里"并停下来。
现有的AI研究在"看图说话"和"理解空间关系"方面已经取得了不少进展,比如让AI回答"图里的椅子在桌子的左边还是右边"这类问题。然而,这些研究绝大多数都是被动的——照片已经提前准备好了,AI只需要看图回答问题,不需要自己走动、自己去寻找合适的视角。
这就好比让一个厨师评价一道菜好不好吃,和让他从头到尾自己做出这道菜,是完全不同的挑战。浙江大学的团队意识到,真正有用的空间智能不是"看图说话",而是能够主动行动、主动探索、主动调整,最终在三维空间里再现一个指定的视角。
**二、TVRBench:这块"考场"究竟长什么样?**
为了检验AI在这个任务上的表现,研究团队搭建了一套名为TVRBench的室内仿真测试平台。整个测试发生在电脑模拟的室内环境里,AI扮演一个能够移动和转头的机器人,目标是通过自主行动,让自己眼中看到的画面与给定的目标照片完全一致。
这个平台的设计非常精心,覆盖了两种不同的场景规模。一种是单房间场景,来自AI2-THOR仿真平台,包含厨房、客厅、卧室、卫生间共120个场景。另一种是多房间场景,来自ProcTHOR-10k仿真平台,每个场景包含两到三个由实体墙隔开的房间,共120个场景。
测试任务还进一步按照"难度"分成了四个类别:单房间简单、单房间困难、多房间简单、多房间困难。所谓简单任务,目标照片里至少要有9个可识别的物体(比如沙发、灯、桌子等),这些物体就像路标一样,帮助AI判断自己站在哪里、该往哪儿走;困难任务的目标照片则只有3到6个物体,路标极少,导航更加费力。
与此同时,从出发点到目标点的行走距离也有讲究。单房间任务需要2到8步行动,而多房间任务则需要10到20步,意味着AI必须穿越走廊甚至多个房间才能抵达目标位置。整个测试集共有500道题,每类125道。
AI的动作选项共有九种:向前、向后、向左、向右各走0.25米;向左或向右旋转45度;抬头或低头30度;以及"停止"——宣告自己已经到达目标位置。AI每次行动后只能看到当前的第一人称视角照片,无法看到地图,也不知道自己的精确坐标,更不知道目标点在哪里。只有当AI喊出"停止"且位置完全正确时,任务才算成功。
**三、现有AI的表现:惨不忍睹的成绩单**
研究团队测试了多个目前最顶尖的AI模型。开源模型包括Qwen3.5-9B、Qwen3.5-27B、Qwen3.6-27B,以及两个混合专家架构的模型Qwen3.5-35B-A3B和Qwen3.6-35B-A3B;闭源商业模型包括GPT-4o、GPT-5,以及谷歌的Gemini-3.1-Pro。与此同时,研究团队还邀请了5位真人参与者完成其中100道题,作为人类基准。
结果令人瞠目:在500道测试题中,表现最好的开源模型(Qwen3.5-27B)仅有7.8%的成功率;表现最好的闭源模型(Gemini-3.1-Pro)也只有12%。而人类参与者的成功率高达93%。换句话说,AI完成这个任务的能力,大约只有人类的八分之一甚至更低。
更有意思的是,将模型参数量从90亿扩大到270亿,成功率的提升极为有限,从2.8%涨到了7.8%。即便是顶级商业模型GPT-5,也仅能达到8%的成功率。这说明单纯"把模型做大"并不能解决这个根本性问题。
研究团队还特别观察到了两种典型的失败模式。第一种是"原地打转"——AI不停地左转右转,却几乎不走动,整个任务过程中实际移动到的不同位置平均只有3.5个,但总行动步数却高达34.3步,而且83%的步骤都是在重复已经去过的地方。第二种是"瞎转圈"——AI不停抬头低头,在同一个地方反复调整头部角度,却毫无进展。统计全部行动分布,旋转类动作占了50.8%,而真正的身体平移动作只占26.1%,"停止"动作更是仅占可怜的0.1%。
研究人员还做了一个关键的控制实验:如果把任务简化成只需要在原地转头,不需要走动,同样的Qwen3.5-9B模型的成功率从2.8%一跃升至80.5%;反过来,如果只允许走动不允许转头,成功率则停留在10%。这个对比清晰地说明,AI真正的瓶颈不是"看不出两张照片有什么不同",而是"看出了不同但不知道该怎么走过去"。
**四、记忆的方式也至关重要**
研究团队还测试了两种不同的"记忆方式"对AI表现的影响。第一种叫做"仅动作记忆"——AI每一步只能看到当前画面、目标照片,以及过去几步做了哪些动作的文字描述,比如"第5步:向前走,第6步:向右转"。第二种叫做"视觉-动作记忆"——AI可以同时看到过去每一步的实际画面,完整的视觉历史都保留在上下文中。
实验结果显示,对于未经训练的模型,仅动作记忆反而比视觉-动作记忆表现更好,平均提升约3.8个百分点。这听起来有点反直觉,但原因其实很清楚:这些模型没有经过专门训练,一旦塞进大量历史画面,反而会被视觉信息所干扰,不知道该关注哪里;而只给它动作列表,虽然信息更少,但至少不会"被图片淹没"。这揭示了另一个重要的瓶颈:现有模型没有能力有效利用多轮视觉历史。
**五、"训练营"能改变局面吗?——后训练框架的探索**
既然现有AI在这个任务上表现如此之差,有没有办法通过专门训练来提升它的能力?研究团队以Qwen3.5-9B作为基础模型,设计了一套包含四种训练方法的综合框架。
第一种方法是"专家示范学习"(SFT,监督微调)。研究团队先用一个有"上帝视角"的规则程序,在模拟环境里自动生成1600条最优行走路径,这个程序知道地图、知道目标坐标,能规划出最短路线。然后把这些示范路径喂给AI,让它通过模仿来学习"该怎么走"。这就像教一个孩子开车,不是让他自己摸索,而是先让教练示范标准驾驶动作,再让他反复练习。在使用视觉-动作记忆的条件下,这种方法把Qwen3.5-9B的成功率从2.8%大幅提升到了50.8%,是一个相当显著的进步。
第二种方法是"加入推理过程的示范学习"(CoT-SFT,思维链监督微调)。在上述示范路径的基础上,研究团队额外借助MiMo-V2.5模型为每一个动作生成一段"理由",比如"当前画面里桌子在右侧,目标照片里桌子在正前方,所以应该向右转"。理论上,这种带有推理过程的示范应该帮助AI"知其然也知其所以然"。然而结果出乎意料:加入推理过程反而降低了成功率。使用仅动作记忆时,从44.2%下降到24.8%;使用视觉-动作记忆时,从50.8%下降到35.6%。这说明,至少在当前的标注方案下,这种文字推理的监督并不能帮助AI更好地完成需要连续行动的导航任务,甚至会干扰它学习有效的动作模式。
第三种方法是"单步强化学习"(Single-turn GRPO)。这种方法不再训练整个行走过程,而是把每一步单独拿出来训练:给AI看当前画面和目标照片,问它"这一步该做什么",然后根据它的回答是否与专家答案一致来给予奖励或惩罚。这种方法在单步预测的准确率上达到了72%,但在真实的连续任务测试中,成功率却从44.2%大幅下降到26.2%。这个反差揭示了一个深刻的道理:在实验室里每道题单独答对,和在真实场景中连续做30个决策都不出错,是完全不同的能力。好比一个学生单独做每道选择题能答对70%,但在真正的考试中却因为前面答错一道题导致后面的判断全部连锁出错。
第四种方法是"多轮强化学习"(Multi-turn GRPO)。这种方法让AI在真实的模拟环境里实际走动,每走完一整条路径才进行一次总体评分——奖励信号不只看最后有没有到达目标,还包括整个过程中是否逐步靠近目标、有没有无效的原地打转、有没有在错误的位置提前喊停等。这就好比跑马拉松,不是只看最终成绩,而是全程都有教练在旁边实时指导。这种方法在视觉-动作记忆的基础上,将成功率从50.8%进一步提升到了51.4%,整体提升幅度虽然不大,但提升来自哪里很有意义:多房间简单任务的成功率从27.2%提升到了34.4%,多房间困难任务从24.8%提升到25.6%,恰好是之前示范学习最薄弱的那些场景。
**六、训练背后的细节:数据是如何准备的?**
为了让读者对整个训练过程有更完整的了解,有必要介绍一下数据的分配方式。研究团队将240个场景按照1:2:3的比例分成了三个互不重叠的池子:最小的用于示范学习(SFT池),其次用于最终测试(评估池),最大的用于强化学习(RL池)。这样的划分确保了测试时用到的场景,在训练阶段从未被AI见过,真正测试的是泛化能力而非记忆能力。
示范学习共生成了1600条轨迹,每条轨迹由三个阶段组成:首先调整头部朝向,使视角方向与目标一致;然后用最短路径算法规划地面行走路线;最后喊停。规划路线的算法使用的是经典的Dijkstra最短路算法,每条示范轨迹都是动作数量最少的最优路径。
对于强化学习部分,多轮强化学习使用了4800条任务(来自120个RL场景,每个场景40条任务),每次训练时AI会在同一个任务上生成8条不同的轨迹,然后通过比较这8条轨迹的好坏来判断哪种走法更值得强化。奖励信号由四部分叠加而成:每走一步扣除一小点奖励以鼓励效率,每次发出的动作格式正确给予小奖励、格式错误则扣分,只有当AI靠近目标的距离超过了历史最近距离时才给予进步奖励(回头走老路不算进步),以及在正确位置喊停给予高额奖励、在错误位置喊停则受到惩罚。
**七、人类是怎么测试的?**
为了建立一个公平的人类基准,研究团队邀请了5位志愿者,每人完成100道题,四个类别各25道。他们通过一个网页界面操作,左边显示当前的第一人称视角画面,右边显示目标照片,用键盘上的W/S/A/D键控制前后左右移动,Q/E键控制左右旋转,R/F键控制抬头低头,空格键宣告完成。整个测试的图像分辨率、动作选项、步数上限和成功判定标准与AI测试完全相同,因此两者的数据可以直接比较。
**八、为什么思维链(CoT)没有帮上忙?**
这个发现值得单独解释,因为在很多其他AI任务里,让模型先"想清楚再说"——也就是生成推理过程——往往能显著提升表现。然而在TVR这个任务里,效果相反。
研究团队认为,问题可能出在推理过程的标注方式上。每个推理步骤的文字描述是由MiMo-V2.5模型生成的,它被要求为每一步专家动作提供一个1到3句话的理由。但这种"事后解释"的推理,和AI真正在连续行动中需要用到的空间规划能力,可能并不是同一回事。更重要的是,TVR任务的每条轨迹长达30到40步,如果每步都带着一段推理文字,整个上下文会变得非常冗长,反而让模型在处理时更容易混乱。值得注意的是,研究团队也坦承,是否存在更适合TVR任务的CoT监督方式,目前仍是一个开放问题。
**九、强化学习为何要在"真实"环境里训练才有效?**
单步强化学习的失败,恰好反衬出多轮强化学习的价值所在。一个每步单独训练的模型,只学会了"在专家演示的场景下该怎么做",从未学过"如果前面走错了,接下来该怎么纠正"。而在真实环境里反复尝试、反复犯错、反复获得奖励信号的多轮训练,让模型有机会接触到各种"非最优状态",并在这些状态下学会如何恢复和前进。
从另一个角度也能看出这一点:研究团队还做了一个实验,直接用未经示范学习的原始模型进行多轮强化学习,结果成功率从0%提升到了26.2%——虽然远不如先做示范学习再做强化学习(51.4%),但起码能从零开始自己摸索出一套可行策略。而单步强化学习从原始模型出发,最终只能到达3.6%。
**十、这项研究意味着什么?**
归根结底,这项研究揭示了当前AI空间智能的一个核心短板:能"看懂"空间,不代表能"行动于"空间。现有的大模型在静态空间理解题目上已经表现不错,但一旦需要把这种理解转化为连续的身体行动,就会出现严重的能力断层。
研究团队通过TVRBench这套测试体系,把这个断层清晰地量化了出来。更重要的是,他们通过对比四种训练方法,找到了目前最有效的提升路径:用视觉-动作历史进行示范学习打下基础(成功率从2.8%升至50.8%),再通过在真实环境里的多轮强化学习在最薄弱的多房间场景上进一步精调(总体成功率提升至51.4%)。
当然,研究团队也坦诚地指出了这项工作的局限性。整个测试发生在虚拟仿真环境里,采用的是离散的位置网格和严格的精确匹配判定标准,这与现实世界中模糊、连续、容错的导航场景还有相当大的距离。所有后训练结论也只在Qwen3.5-9B这一个模型上验证过,是否能推广到其他模型家族、其他规模,以及其他主动感知任务,还需要进一步研究。
从更长远的视角看,这个任务的意义远不止于"拍同款照片"。能够准确复现指定视角的AI,可以应用于室内导航机器人、无人机摄影、虚拟现实体验、远程手术辅助等众多场景。研究团队已经将TVRBench的代码、数据集和训练好的模型全部开源,供更多研究者在此基础上继续探索。
对于AI能否真正获得类人的空间行动智能,这或许只是一个开始。
Q&A
Q1:TVRBench测试的任务具体是什么,为什么不直接用现有的图像导航测试?
A:TVRBench测试的是"目标视角复现"任务,即让AI在三维室内环境中主动行走和转头,直到自己看到的画面与给定的目标照片完全一致,位置、朝向、头部角度都必须精确吻合才算成功。现有图像导航任务(如ImageNav)只要求AI到达目标区域附近,不要求最终视角与目标照片匹配,因此测试的能力有本质区别。TVRBench专注于视角的精确复现,而非粗略的位置接近。
Q2:为什么给AI加入推理过程(思维链)反而让成功率下降了?
A:在这个研究里,添加推理过程会让训练数据中每一步都带有一段文字说明,导致整条轨迹(30到40步)的上下文变得极长,模型容易被大量文字信息干扰而偏离核心的动作学习。更关键的是,这些推理文字是由另一个模型"事后补充"的解释,与连续行动中真正需要的空间规划能力存在差距,并不能有效指导模型学习实际的导航决策。
Q3:多轮强化学习比单步强化学习效果好很多,原因是什么?
A:单步强化学习每次只训练一个孤立的动作决策,模型只在专家示范过的场景状态下学习,从未接触"走错了该怎么办"的情况,导致在真实连续任务中一旦出现偏差就无法恢复,错误会不断累积。多轮强化学习让AI在真实环境里完整地走完整条路径,能接触到各种非最优的中间状态,并通过整条轨迹的综合奖励信号学会如何纠错和恢复,因此更适合这类需要多步决策的主动感知任务。





京公网安备 11011402013531号