![]()
这项由印度BITS比拉尼果阿校区、印度人工智能研究组织(IAIRO)、孟加拉国达卡大学、德里理工大学,以及来自谷歌DeepMind和谷歌的研究人员共同完成的研究,于2026年5月以预印本形式发布在arXiv上,编号为arXiv:2605.10376。研究的核心产出是一个名为SleepWalk的评测基准,专门用于衡量视觉语言模型在三维场景中将语言指令转化为可执行路径的能力。
**当机器人"听懂了"但"走错了"**
假设你家里有一个智能机器人助手。你对它说:"去把沙发旁边的遥控器拿过来给我。"它点了点头,表示听明白了,然后……径直撞上了茶几,或者站在了沙发的另一侧,完全没办法够到遥控器。这个场景听起来像科幻喜剧,但它恰恰描述了当今最先进的视觉语言模型(也就是那些能同时"看图"和"理解文字"的AI系统)所面临的真实困境。
这类模型在描述图片、回答问题、跟随指令方面已经取得了相当亮眼的成绩。但问题是,"能说清楚"和"能走对路"是两回事。当我们希望AI真正进入物理世界,成为机器人的大脑时,它需要的不只是"认出沙发在哪里",还要规划出一条从当前位置走过去、绕开所有障碍、最终站在一个能够伸手拿到遥控器的合适位置的完整路径。这中间的距离,远比我们想象的要大。
正是为了精确测量这个距离,上述研究团队设计并发布了SleepWalk这个评测框架。研究的名字颇具诗意——"梦游",暗示这些AI系统在三维空间里的行动方式,更像是闭着眼睛走路,而非真正理解自己身处何处、要去哪里、该怎么走。
**一、从一张文字描述,到一个可以"走进去"的三维世界**
SleepWalk的第一步,是构建测试场景。研究团队从一个广为人知的图像数据集MS-COCO中抽取了原始的场景文字描述,经过人工筛选和改写,最终得到了1200条适合生成单一连贯场景的描述,涵盖室内和室外两大类环境。
这些文字描述随后被输入一个名为Hunyuan3D-3.0的3D场景生成系统。这个工具的工作原理有点像一位超级快手的建筑师:你给它一段话,比如"一家带有舒适墙壁和地板的书店,里面有书架、梯子、阅读椅和收银台,陈列丰富",它就能依照这段描述,自动估算出场景的空间布局、物体摆放位置和整体几何结构,生成一个三维环境。
为了确保这些生成的场景真的能用于测试"行走"能力,团队对每一个生成的场景都进行了严格的人工筛选。他们要求场景必须是一个视觉上和空间上连贯的整体,而不是几个拼凑在一起的碎片;场景中必须有足够的空地供一个人形大小的智能体自由移动;场景里的主要物体必须从渲染图像中能被识别出来;同时,那些出现了严重几何错误(比如物体悬浮在半空中、穿墙而过)的场景一律被剔除。
经过这一系列筛选,最终保留了2472个高质量的三维环境。对于每一个场景,研究团队都渲染出两个视角的图像:一个是从正上方俯视的"鸟瞰图",能清晰地看出整个场景的平面布局和障碍物分布;另一个是带有一定倾斜角度的"斜视图",能更好地展现物体的外观、材质和交互信息。这两张图共同构成了AI模型在执行任务时所能"看到"的全部视觉信息。
这种只聚焦在单一场景内的设计选择是有意为之的。与以往那些让AI在多个房间之间来回穿梭的导航测试不同,SleepWalk刻意压缩了探索的范围,把焦点放在更精细的局部推理上——在一个充满家具和杂物的空间里,AI能不能找到正确的目标、规划出安全的路径、在恰当的位置停下来?这恰恰是现实中机器人助手面临的最典型挑战。
**二、九道题、三个难度,测的是"越说越难懂"的指令**
有了场景,接下来需要为每个场景生成测试任务。研究团队使用了另一个视觉语言模型Qwen3-8B-VL来完成这项工作。这个模型同时看着鸟瞰图和斜视图,被要求生成九条不同的导航指令,按照难度分成三个等级,每个等级三条。
第一级(简单)的任务,要求的是直接的、单目标的移动,比如"从书架走到墙上的灯"。这类任务的关键在于正确识别出起点和终点的位置,路径本身相对简单。
第二级(中等)的任务开始引入组合要素,比如"走向那个黄色球形物体,然后移动到北边的树"。这要求AI不仅要识别出两个不同的目标,还要按照正确的顺序依次抵达,并且把"先……再……"的时间逻辑体现在路径上。
第三级(困难)的任务则进入了真正的多步骤交互领域,比如"从服务台拿起托盘,走到圆桌,把它放在那里"。这不仅涉及三个不同的物体和位置,还包含了拿取、搬运、放置等动作,要求AI规划出一条完整的行动序列,并在最终停下的地方确保能够执行放置动作。
为了保证这些指令的质量,生成过程中设置了多条严格的约束。每一条指令的起点和终点都必须对应场景中真实可见的具体物体,而不能含糊地说"从墙边出发"。指令中绝对不允许使用"左边"、"右边"、"前面"、"后面"这类依赖观察者视角的方向词,因为AI的朝向是不确定的,这类词语会引入不必要的歧义。所有提到的物体也必须是画面中实际存在的,杜绝凭空捏造。
这套三级设计的逻辑是:随着任务的难度提升,所需的推理能力从"认出目标在哪儿",升级到"同时把握多个目标的空间关系",再升级到"规划包含行动约束的完整时间序列"。每一级都在前一级的基础上增加了新的认知负担,就像从"把苹果拿给我"到"先从冰箱里取出苹果,再走到桌边,把它放在我的盘子里",背后所需的理解和规划能力是完全不同量级的。
**三、让AI"画出"路径:轨迹预测任务的设计**
SleepWalk的核心任务是轨迹预测。每个被测试的AI模型会同时接收到两张场景图像和一条语言指令,然后被要求输出一条具体的行走路径。
这条路径用一系列三维坐标点来表示。场景被抽象为一个25×25×25的离散网格,坐标都是整数,模型需要输出从起点到终点经过的每一个中间坐标,类似于在棋盘上规划一步步的移动。一条合格的路径需要满足三个条件:它必须在场景的空间范围之内;它不能穿过任何障碍物,比如家具、墙壁或架高的台面;它必须在一个与指令要求的动作相容的位置结束——比如"拿起托盘"需要路径终点足够靠近托盘且没有被其他物体挡住。
这个设计的关键在于,它不仅仅评估模型"最终停在哪里",而是评估整条路径从头到尾的每一步是否都合理。传统的导航测试往往只看终点,就好像考试只看最终答案对不对,不管解题过程有没有逻辑错误。SleepWalk要求的是一份完整的、经得起检查的"解题过程"。
所有被测试的模型都在零样本条件下运行,也就是说,在测试之前没有任何针对SleepWalk任务的专门训练或调整。这确保了测试结果反映的是模型的原生能力,而不是为特定考试临时突击的成绩。
**四、用AI当考官:轨迹评分的四维标准**
当模型输出了路径之后,如何给这条路径打分?研究团队设计了一套基于AI评判模型的评分协议,使用GPT-5-mini作为"考官"。
考官模型会同时看到三样东西:场景的鸟瞰图、当前的导航指令,以及模型预测的路径叠加在鸟瞰图上的可视化结果(用绿色星形标记表示路径点,绿色圆点标记起点,红色圆点标记终点)。基于这些信息,考官对每条路径从四个维度独立打分,每个维度的分数在1到5之间,不确定时可以标记为"无法评判"。
第一个维度是起点位置的准确性,考察路径是否从正确的初始区域出发,是否贴近指令中提到的起始参照物。第二个维度是目标完成度,考察路径终点是否真正到达了指令要求的位置,且该位置支持指令所描述的动作。第三个维度是障碍物规避,考察路径是否绕开了所有明显的障碍,没有出现穿墙或穿过家具的情况。第四个维度是路径效率,考察路径是否足够直接,没有无谓的绕弯或重复。
有效分数会被归一化到0到1之间,然后在同一难度等级内取平均,再在三个难度等级之间再取平均,得到每个维度的总体得分。这套评分体系的好处在于,它能区分"走了个没撞墙的路但走错了地方"和"找对了地方但走了很多冤枉路"这样的细节差异,而不是简单地"对/错"二分。
研究团队特别强调,引入AI评判模型并不是因为几何距离等自动化指标不重要,而是因为这类任务的正确性在某种程度上是语义性和动作相关性的,纯粹的几何计算无法判断"这个终点到底适不适合执行拿东西的动作"。当然,这也意味着评分本身依赖于评判模型的可靠性,研究团队承认目前没有提供人工标注的对比验证,这是该方法的一个局限。
**五、三个选手上场:GPT-5-mini、Qwen3-VL、Gemini Robotics ER-1.5**
研究团队选取了三个代表性的前沿视觉语言模型参与测试:Qwen3-VL、Gemini Robotics ER-1.5和GPT-5-mini。三个模型在完全相同的条件下接受测试,看相同的场景图像,读相同的指令,使用相同的输出格式要求,由相同的评判模型打分。
从整体得分来看,GPT-5-mini在所有四个评分维度上均领先:起点位置准确性达到0.75,目标完成度达到0.51,障碍物规避达到0.91,路径效率达到0.64。Gemini Robotics ER-1.5居中,四项得分分别为0.58、0.34、0.89和0.58。Qwen3-VL得分最低,分别为0.48、0.20、0.84和0.47。
这组数据本身就讲了一个很有意思的故事。三个模型在障碍物规避这一项上都得分不低(最低的Qwen3-VL也有0.84),但在目标完成度上却表现糟糕(最高的GPT-5-mini也只有0.51,Qwen3-VL更是只有0.20)。用打靶来类比:这些模型都能把子弹打在靶场范围之内(不撞墙),但能否打中靶心(到达正确目标位置)就差得远了。障碍物规避反映的是"能不能生成一条看起来合理的路",而目标完成度反映的是"能不能生成一条走对了地方的路"。前者容易,后者才是真正的难点。
**六、越难越崩:三个等级之下的系统性衰退**
按难度等级细分的结果揭示了一个清晰的规律:随着任务从简单到中等再到困难,所有模型的表现都在下滑,而且下滑幅度并不均匀——越是涉及多步骤推理和交互约束的任务,模型的表现下降得越剧烈。
以简单任务"从书架走到墙上的灯"为例,三个模型都能大体理解任务的语义,找到书架区域并向灯的方向规划路径。GPT-5-mini选择了更合理的目标灯,Gemini Robotics ER-1.5则终止于更远的一盏灯。然而,三个模型的路径都存在一个共同问题:轨迹的某些部分与起点物体或目标物体过于贴近,如果真的在三维空间中执行,会导致碰撞。即使是最简单的任务,模型也无法完全弥合"语义理解"和"物理可行性"之间的裂缝。
中等任务"走向黄色球形物体,然后移动到北边的树"的主要挑战在于组合性推理。Qwen3-VL在起点和终点都出了问题。Gemini Robotics ER-1.5能更准确地找到最终的目标树,但没能正确定位起始区域。只有GPT-5-mini同时把握住了两端。这类任务的核心失败不是撞墙,而是无法正确把多个参照物绑定到各自的空间角色上,更无法保持"先……再……"的时间顺序。
困难任务"从服务台拿起托盘,走到圆桌,把它放在那里"进一步引入了显式的物体交互和多步规划。GPT-5-mini再次表现最好,同时正确对齐了起点和终点,并保持了合理的路径。但即便是这个表现最好的模型,在面对需要精确理解"在哪里执行放置动作"的问题时,也显示出了明显的局限。
这三个案例共同揭示了三类反复出现的失败模式:起点定位偏差(明明知道目标物体在哪里,但路径从错误的区域出发);目标定位不完整或错误(路径走到了附近,但不是正确的那个物体,或者到达了物体的错误一侧);以及路径在语义上说得通但物理上不安全(绕过了主要障碍,但仍然会在执行时引发碰撞或站在无法完成动作的位置)。
**七、让路径"活起来":人形机器人动作验证**
除了静态的鸟瞰图叠加评分,研究团队还做了一个额外的可视化验证实验,把GPT-5-mini预测的路径"搬进"了真正的人形运动动画。
具体做法是,先把路径的坐标序列输入TLControl系统,这个工具负责把路径点转换成低级别的运动控制信号,相当于告诉机器人每一步该如何移动。然后再用MotionGPT系统根据这些控制信号生成逼真的全身动作,包括走路姿态和与物体交互时的肢体动作。
这个步骤的价值在于,它能发现纯粹从鸟瞰图上看不出来的问题。一条在平面俯视图上看起来没有明显错误的路径,在三维执行的时候可能会出现近距离掠过障碍物、停在一个人形体格无法舒适完成动作的位置、或者出现奇怪的肢体运动过渡等情况。研究团队展示了两个任务的动画结果,以此提供了一个从"几何正确性"到"具身可行性"之间的定性桥梁。
这个阶段的结果用于辅助定性理解,而非作为基准测试的主要评分依据。其存在的意义更像是一个额外的显微镜,帮助研究者看到单靠分数看不到的失败细节。
**八、这个测试框架本身有哪些局限?**
研究团队在论文中坦诚地列出了SleepWalk的几个明确局限,这种诚实本身就是严谨研究的体现。
首先,所有场景都是从文字描述生成的合成环境,而非真实世界的扫描或照片。这意味着场景的物理细节(比如物体的实际重量、接触时的摩擦力、动态变化)只是近似模拟,无法完全反映现实情况。其次,主要评分依赖AI评判模型而非人工标注,尽管评分维度有明确的评分标准,但没有经过系统性的人工核验,评判结果存在一定的不确定性。第三,鸟瞰图叠加的路径可视化是一种简化呈现,它无法捕捉具身执行的所有细节。
此外,关于数据集构建的透明度,论文在不同地方提到了"1200条描述"和"2472个环境"两个数字,但对从前者到后者的具体转化过程描述不够详细。研究团队也承认,目前只评测了三个模型,未来的工作应该覆盖更广泛的模型类型。
**说到底,这场"梦游测试"告诉了我们什么**
归根结底,SleepWalk做的事情,是在AI系统真正被部署进现实世界之前,给它们来一次严格的预演检验。
从测试结果来看,今天最好的视觉语言模型在"不撞墙"这件事上已经做得相当不错,但在"走对地方"这件事上仍然差强人意。更深层的问题不是模型不懂路,而是模型不够理解"指令说的那个地方,到底具体是哪里,以及到达那里之后身体该怎么放"。这是一种把语言意义和物理空间精确对齐的能力,目前仍然是AI系统的薄弱环节。
对于将来想要真正进入家庭和工作场所的机器人助手来说,这种能力至关重要。一个机器人如果只能大概走到目标附近,在现实中可能意味着撞倒了花瓶、夹住了手指,或者完全无法完成它被要求做的事情。SleepWalk提供了一个可量化、可重复、可扩展的方式,来测量现有系统距离这个目标还有多远。
研究团队也指出了几个值得探索的后续方向:一方面是丰富输入信息,比如提供多个角度的视图或者时间序列的观察;另一方面是直接在结构化的三维场景表示上进行推理,而不只是依赖渲染图像;还有就是把路径预测与更底层的运动控制更紧密地结合起来;以及将整个框架迁移到物理仿真器中,支持具身训练和从仿真到现实的能力迁移。
这项研究让人思考的不仅仅是AI技术的进步方向,更是我们在评估AI能力时是否问对了问题。能描述环境、能说出意图、能识别目标,和能真正在环境中行动,中间隔着一段我们还没有完全测量清楚的距离。SleepWalk的价值,就是把这段距离量化出来,让它从一个模糊的感觉变成一个可以追踪进展的具体指标。有兴趣深入了解的读者可以通过arXiv编号2605.10376查询完整论文。
Q&A
Q1:SleepWalk测试框架和普通的视觉语言导航测试有什么不同?
A:SleepWalk专注于单一场景内的局部精细推理,要求模型输出完整路径而非仅仅到达终点,并且评估路径的每一步是否在物理上合理、动作上可执行。传统导航测试更关注跨房间的长距离探索,且通常只用终点是否到达作为成功标准,容易掩盖路径本身的问题。
Q2:SleepWalk的评分为什么不用距离这样的几何指标,而要用AI当评判模型?
A:路径的正确性不只是几何问题,还涉及动作语义,比如"停在能够拿到物体的位置"这种判断纯粹靠坐标距离计算是无法完成的。GPT-5-mini作为评判模型能同时理解语言指令和视觉场景,对路径是否真正完成了任务给出综合判断,弥补了纯几何指标的不足。
Q3:SleepWalk测试出来的AI最大弱点是什么?
A:测试结果显示,三个被评估的模型在障碍物规避上得分相对较高(大多在0.84以上),但在目标完成度上得分很低(最高才0.51)。这说明模型的主要短板不是生成一条看起来合理的路,而是精准地把语言指令对应到正确的空间位置,并在一个真正支持执行指定动作的地点停下来。





京公网安备 11011402013531号