当前位置: 首页 » 资讯 » 科技头条 » 正文

香港科技大学等机构联合揭示视觉语言模型的空间行动鸿沟

IP属地 中国·北京 科技行者 时间:2026-06-10 22:30:47


这项由香港科技大学(广州)、清华大学、中关村学院、赫尔辛基大学联合开展的研究,以预印本形式发布于2026年5月29日,论文编号为arXiv:2605.31148。有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。

**一、你的机器人助手为什么总是摆不好家具**

假设你正在搬家,请了一个助手帮你把新家的家具摆好。这个助手眼神很好,能一眼看出哪张椅子摆歪了、哪个书柜越过了墙线、哪个床头柜和衣柜撞在了一起。但奇怪的是,每次你指出一个问题让他去修,他要么修错了位置,要么修好这个又碰坏了那个,要么干脆修了几下就说"好了!"然后拍拍手离开——但其实房间里还乱着。

这个令人抓狂的助手,就是今天许多顶尖AI视觉语言模型(也就是那种能"看图说话"、既能理解图像又能生成文字的人工智能)在面对3D空间任务时的真实状态。研究团队正是被这个问题所驱动,搭建了一套名为SpatialAct的测试平台,专门用来戳破AI在"看懂空间"和"动手改空间"之间那道隐而不显的裂缝。

**二、空间智能:不只是"看出来",更要"做出来"**

在日常生活中,人类处理空间问题是一件极为自然的事。你走进一间乱糟糟的储藏室,眼睛一扫就知道纸箱压了椅子、梯子挡了门、花盆太靠边快掉了。接着你伸手调整,推一推、挪一挪、转一转,每改动一件东西,你都会重新审视整个房间,判断问题是否真的解决了,或者有没有带来新的麻烦。这个"看—判断—动手—再看—再判断"的循环,对人类而言轻而易举。

近年来,各种视觉语言模型(Vision-Language Models,简称VLMs)在这类"看图问答"任务上表现越来越亮眼。给它一张房间的图片,问它"书柜在椅子的哪个方向",或者"如果把桌子往北移80厘米会不会碰到墙",许多模型都能答得头头是道。然而,这类任务有一个共同特点:模型只是一个旁观者,它的回答不会真的改变图片里的任何东西,下一轮问题时面对的仍然是同一张静止的图。

研究团队发现,这正是当前评测体系的一个巨大盲区。现有的空间推理测试,绝大多数都是让模型"被动观察":给你图,问你问题,答完就结束。即便是一些更复杂的具身智能(Embodied AI)测试,又往往把高级的空间推理和底层的机械控制(怎么移动机器人关节、怎么抓取物体)混在一起,很难单独评估"空间思维"本身的好坏。

于是,一个重要的空白地带出现了:AI能不能在"动了一下"之后,重新理解更新过的环境,并持续、连贯地做出正确判断?这种能力,研究团队称之为"行动条件下的空间推理"(action-conditioned spatial reasoning)——不只是静态地看懂空间,而是在自己的每一个动作之后,都能跟上环境变化,继续保持准确的空间认知。

**三、SpatialAct:一座专门测试"动手能力"的空间擂台**

为了把这个问题变得可测量、可分析,研究团队构建了SpatialAct这套基准测试平台。它的核心设计思路,就像是给AI搭了一间3D模拟房间,让它不仅要看懂房间里的问题,还要亲自动手去修,修完了系统会把更新后的房间图片重新发给它,然后AI再看、再判断、再动手,循环往复。

这套平台涵盖了三类场景。第一类是"抽象几何"场景,里面摆的是各种简单几何体,比如正方体、圆柱体、L形体、U形体等,形状干净、没有语义干扰,专门用来测试模型的纯粹几何空间能力。第二类是"城市建筑"场景,来源于一个叫做RAISECity的城市级3D生成框架,里面有白模建筑和带贴图的建筑混合摆放,每个场景不超过20栋楼,模拟真实的城市规划布局。第三类是"室内场景",来自InternScenes这个大型室内场景数据集,里面有各种可移动的家具,每个场景包含5到15个对象。

整个数据集共有333个场景,4355道题,题目分为开放式问答、多项选择题和多轮反馈交互三种格式。每个场景都会从两个视角渲染出图片:一是正上方的俯视图(top-view),像卫星地图一样看整个布局;二是斜45度的等轴测视图(isometric-view),像游戏里的上帝视角,能看到物体的立体形态。两张图同时给到模型,让它从不同角度理解场景。

数据的质量控制也经过了严格把关。几何场景因为是程序自动生成的,天然满足约束条件,不需要额外筛查。建筑和室内场景则经历了程序自动清洗加人工复核两道关卡,检查物体尺寸是否合理、空间摆放是否合乎常识、有没有明显的语义冲突,确保所有"干净"场景在注入错误之前本身是正确的。

**四、三层台阶:从看懂空间到动手修空间**

SpatialAct的任务设计遵循一种从简单到复杂的阶梯结构,就像一场考试分成填空题、应用题和综合大题三个难度层次,每一层都对应着不同深度的空间能力考察。

最底层是"基础空间能力"的五项测试,分别对应五种不同维度的空间认知。其中"物体含义"考察的是最基本的识别和定位,比如"房间里有几个柜子"、"离柜子最近的是几号物体"这类问题。"空间关系"则进一步考察物体之间的相对位置,比如"3号楼在5号楼的哪一侧"。"空间定向"涉及视角转换,比如"在等轴测图里最偏北的那栋楼,如果把视角顺时针转90度,它会出现在哪个方向"——这需要模型能在脑子里旋转整个坐标系。"心理旋转"则是更高难度的想象力测试,比如"如果把1号物体围绕场景中心逆时针旋转90度,它会不会和4号物体发生碰撞,哪个选项展示了正确的结果"。最后的"空间可视化"考察的是假设性操作的后果推断,比如"如果把4号楼和5号楼的位置互换,互换后场景里还有没有碰撞"。

中间层是"单步错误检测与修复",它把任务复杂度提升了一个台阶。这层任务里,模型看到一个已经存在问题的场景,先要判断"这个场景里有什么问题"(检测),然后从给出的几个选项里挑出"一步到位能解决问题的那个动作"(修复)。这就好比给你一张房间的照片,让你看出哪里不对,然后从"把A往北移60厘米"、"把B旋转30度"、"把C缩小到0.8倍"几个选项里选一个最合适的。

最顶层才是SpatialAct真正的核心挑战——"多轮交互式修复"。在这个任务里,模型面对一个有若干空间错误的场景,必须通过反复操作来把所有错误都修好。每一轮,模型先观察当前的俯视图和等轴测图,输出它认为需要执行的修复动作,系统解析这个动作指令并在模拟器里真实执行,然后把更新后的场景图片重新发给模型。模型再看、再判断、再输出动作,如此循环,直到模型判断"场景已经干净了",或者达到了预设的最大轮次上限(30轮)为止。

模型可以使用的动作类型有三种:移动(move,指定方向和距离)、旋转(rotate,指定角度)、缩放(scale,指定比例)。城市建筑场景里的错误类型包括建筑之间的碰撞、建筑压在道路上的冲突,以及建筑朝向不符合道路走向的方向性错误。室内场景里的错误则对应为物体之间的碰撞、物体穿越墙壁的冲突,以及家具摆放方向不合常理的朝向错误。

**五、用数字衡量"修得好不好"**

为了公正、全面地评价模型在多轮交互修复任务中的表现,研究团队设计了一套五维度的评估指标体系,分别从修复准确性和修复效率两个角度切入。

衡量修复准确性的第一个指标是"修复率"(Repair Rate),计算方式是"修复前的错误数减去修复后的错误数,除以修复前的错误数"。这个数字越接近1,说明模型把错误消灭得越彻底;如果这个数字是负数,说明模型越改越糟,引入了更多新错误。第二个是"场景成功率"(Scene Success Rate),衡量的是有多少比例的场景被完全修好(所有错误清零)。这是一个更严格的标准:不是部分修好,而是彻底修干净。

衡量修复效率的三个指标则从另一个角度审视模型行为。"有效修复轮次比例"(Effective Repair Turn Ratio)统计的是所有交互轮次中,真正减少了错误的轮次占多少——如果这个比例很低,说明模型在大量"无效操作",做了很多白功。"过早停止率"(Premature Stop Rate)统计的是在场景还有错误时模型就说"好了"然后停下来的比例——这个比例越高,说明模型越容易误以为任务完成了。最后,"每场景平均完成token数"衡量的是模型在整个修复过程中消耗的计算量,反映了推理的经济效益。

**六、测试结果:AI与人类之间令人意外的巨大落差**

研究团队把七个当前最强的视觉语言模型拉到这套擂台上逐一考验,结果揭示出一幅既有安慰、也有震撼的图景。

在基础空间能力和单步任务上,闭源的顶尖模型表现相当不错。Gemini-3.1 Pro在大多数基础能力子项上都保持在70%到80%的准确率区间,GPT-5.4也紧随其后。这部分结果颇令人宽慰——说明这些模型确实"看懂"了不少空间信息。

然而,一旦来到多轮交互修复这道真正的考题,画风就急转直下。Gemini-3.1 Pro以0.411的修复率和0.206的场景成功率领跑所有AI模型——但这意味着它平均只能消除约41%的错误,而且只有大约五分之一的场景能被彻底修干净。GPT-5.4的修复率是0.208,场景成功率仅有0.038,也就是说将近96%的场景都没能完全修好。GLM-5V-Turbo的修复率甚至是负数,达到了-0.012,说明它改来改去反而越改越坏。开源模型的表现同样令人失望,Kimi-K2.5、Qwen3.6-27B的修复率都在0.03到0.04的极低水平徘徊。

与之形成鲜明对比的是,七名人类测试者使用研究团队专门开发的网页端操作平台来完成同样的任务,他们的修复率高达0.911,场景成功率达到0.763。也就是说,人类平均能修好90%以上的错误,有超过四分之三的场景能被彻底清干净。最强AI和普通人类之间,整整相差了50个百分点的修复率。

过早停止率这个指标同样触目惊心。Kimi-K2.5和Qwen3.6-27B的过早停止率高达0.920,也就是说每10个场景里有9个,模型在还有错误残留的时候就已经宣告"完成任务"了。Gemini-3.1 Pro相对好一些,过早停止率为0.566,但仍然意味着超过一半的场景被过早地放弃了。

论文还展示了两个具体的失败案例来说明模型究竟在哪里栽了跟头。在一个室内场景中,GLM-5V-Turbo对着厕所(object 5)和货架(object 8)反复推敲,担心它们是否越界,但对于真正有问题的物体却误判为"没有问题",最终给出了错误的修复对象和方向。在另一个城市建筑场景中,模型把一栋压在路上的楼(Building 5)和一栋转角朝向异常的楼(Building 12)都识别出来了,但给Building 5开出的"往北移动0.8米"的药方实际上并不能解决建筑-道路冲突问题,显示出从正确诊断到正确行动之间仍然存在断层。

**七、是什么导致了这个鸿沟**

研究团队没有停留在揭示问题上,还做了一系列更细致的分析,试图搞清楚这道鸿沟究竟是从哪里来的。

从场景类型的角度来看,Gemini-3.1 Pro在室内场景上的修复率和有效修复轮次比例都高于城市建筑场景,说明模型对室内环境更熟悉,更擅长处理家具的空间问题。有意思的是,建筑场景的场景成功率反而稍微高一点,研究团队推测这可能是因为建筑布局相对简单、对象间的依赖关系没那么复杂,一旦修好了关键错误,整个场景就容易达到全部清零的状态。

从错误类型的角度来看,三个主要测试模型(Gemini-3.1 Pro、GPT-5.4、Qwen3.6-35B-A3B)都呈现出同样的规律:朝向错误最容易修,道路/墙壁冲突最难修,碰撞问题居中。朝向修复通常只需要旋转某个物体就能解决,是相对孤立的属性调整。而冲突修复往往牵一发而动全身,修了这个物体可能带出新的冲突,需要同时协调多个对象的位置,对模型的全局规划能力要求极高。

从场景复杂度的角度来看,研究团队把室内场景按照初始错误数量分成了三组(1到3个错误、4到6个错误、7个以上错误),结果不出意外——错误越多的场景,修复率和场景成功率越低。当场景里有7个以上相互牵连的错误时,模型几乎束手无策,GPT-5.4和GLM-5V-Turbo在这个难度区间的场景成功率趋近于零。

研究团队还专门测试了上下文窗口大小对模型表现的影响,用Kimi-K2.5(这个模型的推理输出特别长)在100个样本上做了实验,分别限制到8K、16K、32K个token的上限。结果发现,随着上下文窗口增大,模型确实会生成更多的推理内容、进行更多轮次的互动,但修复率和场景成功率几乎没有变化。这说明"让模型想更多"并不等于"让模型修得更好",瓶颈不在于推理预算,而在于跨轮次的状态追踪能力、错误优先级判断,以及面对反馈时的动作可靠性。

最后,研究团队还计算了六项基础任务的得分和多轮交互修复表现之间的相关性。六项基础任务的得分都与修复表现呈正相关,这说明基础能力确实是复杂任务的基石,基础越好的模型在修复上也做得更好。其中相关性最强的是"单步错误检测与修复"任务,它与修复率的皮尔逊相关系数高达0.817,与场景成功率的相关系数为0.690,说明"单步检测修复"的能力正是多轮交互修复的核心构件,被模型反复调用。排在第二位的是"物体含义",说明对物体位置和身份的精准识别,对于将局部修复延伸到整个场景的一致性至关重要。不过,基础能力强并不能保证多轮修复就一定成功,因为迭代修复还额外依赖跨轮次的记忆维护、冲突感知的规划,以及对反馈的稳定响应——这些都是更高阶的协调能力,目前的模型普遍欠缺。

**八、这项研究意味着什么**

说到底,SpatialAct这项研究干的事,是把AI的一个"假装很强"的假象给戳破了。那些在静态空间问答里答得津津有味的模型,一旦被要求真正动手在一个会随自己行动而改变的3D环境里工作,就立刻原形毕露。看懂空间和在空间里行动,是两件完全不同的事。

归根结底,这个差距来自一种人类觉得理所当然、但机器目前还很缺乏的能力——在行动之后,持续、准确地知道"现在的世界是什么样的",并据此规划下一步。每一次你动了一件家具,你的大脑会自动更新对整个房间的认知模型,下一个判断是基于更新后的状态做出的。而当前的视觉语言模型虽然能接收到更新后的图片,却常常无法把这些更新稳定地整合进自己的空间认知里,更无法基于多轮历史形成连贯的修复策略。

研究团队坦诚地指出,这套测试目前全部在模拟环境里进行,真实世界中的复杂光照、遮挡、噪声等问题没有被纳入考量,是未来工作的重要方向。此外,如何针对性地提升模型的多轮空间修复能力,目前还没有成熟的解决方案,这也留给了后续研究者一个清晰的目标。

对于普通读者而言,这项研究的意义是相当实际的。在不远的将来,各种AI助手会越来越多地参与到室内设计、家居规划、城市建设、游戏场景生成等需要三维空间理解和动手操作的场景中。SpatialAct这套评测体系的出现,为判断"哪些模型真正有空间动手能力"提供了一把可靠的尺子,也为研究者指明了"接下来最需要突破什么"的方向。有兴趣深入探索的读者,可以前往arXiv通过论文编号arXiv:2605.31148查阅完整的原始论文,研究团队也在GitHub上公开了完整的基准数据、模拟器工作流和评估工具,地址为tsinghua-fib-lab/SpatialAct。

Q&A

Q1:SpatialAct测试平台的三类场景分别是什么,各有什么特点?

A:SpatialAct包含三类场景。抽象几何场景由程序自动生成,内含立方体、圆柱、L形、U形等几何体,形状干净无语义干扰,专门测试纯几何空间能力。城市建筑场景来自RAISECity框架,由白模和带贴图的建筑混合构成,每场景不超过20栋楼,模拟城市规划布局。室内场景来自InternScenes数据集,包含各类可移动家具,每场景含5到15个对象,视觉复杂度最高。

Q2:多轮交互修复任务里,AI模型和人类的表现差距有多大?

A:差距非常显著。最强的AI模型Gemini-3.1 Pro的修复率为0.411,场景成功率为0.206,而七名人类测试者的修复率高达0.911,场景成功率达0.763。两者之间整整相差约50个百分点的修复率。部分开源模型的修复率甚至是负数,说明越改越坏。此外,多数开源模型在超过90%的场景中会在错误还未完全消除时就提前宣告任务完成。

Q3:为什么增大AI模型的上下文窗口并不能提升空间修复效果?

A:研究发现,随着上下文窗口从8K增大到32K,模型会生成更多推理内容并进行更多轮次互动,但修复率和场景成功率几乎没有变化。这说明瓶颈不在于推理预算,而在于模型跨轮次的空间状态追踪能力、错误优先级判断,以及面对环境反馈时稳定输出正确动作的能力。更多的思考并不能弥补空间状态维护能力本身的不足。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。