当前位置: 首页 » 资讯 » 科技头条 » 正文

Meta与UC Berkeley联手:让AI真正"看懂"三维空间

IP属地 中国·北京 科技行者 时间:2026-06-03 22:23:23


这项由Meta基础人工智能研究院(FAIR at Meta)联合加州大学伯克利分校与香港大学的研究团队共同完成的研究,于2026年5月28日以预印本形式发布,论文编号为arXiv:2605.30231,有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们教一个孩子认识世界时,有两种截然不同的方式。一种是让他死记硬背:椅子高度一般是45厘米,桌子宽度一般是80厘米,冰箱在房间左边,电视在房间右边。另一种是培养他的空间感知能力:让他学会从不同角度辨认同一张椅子,理解"前面"和"后面"的关系,感受物体在三维空间中的位置。第一种方式快速但脆弱——一旦换了新房子,所有的记忆都没用了。第二种方式虽然需要更多训练,但培养出的能力可以应对任何陌生环境。

这正是当前人工智能在空间理解方面面临的核心困境。今天的视觉语言模型(可以理解为能看图说话的AI)虽然在回答各种问题上表现出色,但在理解真实三维空间时却常常力不从心。比如,当你问它"图中的微波炉离摄像头有多远",或者"从这个角度看,门在沙发的左边还是右边",它往往会给出令人啼笑皆非的错误答案。

这个研究团队的核心洞察非常直接:现有的解决办法,走的都是第一条路——死记硬背式的刷题训练。研究人员提出了一套名为GASP(几何感知空间先验,Geometric-Aware Spatial Priors)的全新训练框架,试图从根本上改变这种局面,让AI真正建立起对三维几何世界的内在理解。

一、现有方法为何像在"刷题"而非真正理解

为了理解GASP的价值,先要弄清楚目前的AI是怎么学习空间理解的,以及这种学习方式存在什么根本性的问题。

主流做法是收集大量和三维空间相关的问答数据集,然后用这些数据对AI进行微调训练。举个例子,数据集里可能有成千上万条这样的记录:"这张图里,沙发距离门口2.3米","从这个角度看,冰箱在窗户的左边"。AI通过大量学习这类问答,逐渐能给出正确的回答。

表面上看,这种方法很合理。但研究团队通过实验发现了一个令人担忧的现象:这些经过专门训练的AI,在它见过的数据集上表现极好,但一旦换到新场景,性能就会大幅下滑。比如,某个专门为VSI-Bench(一个著名的空间推理测试集)训练的模型,在这个测试集上的表现提升了十多个百分点,但在另一个名为MMSI-Bench的测试集上,表现反而比训练前更差。

这不禁让人联想到那些专门为某套考试刷题的学生:他们能在那套考卷上得高分,但如果考题换一种形式,就会手足无措。这是因为他们学到的不是真正的数学或物理能力,而是那套考卷的答题套路。

研究团队进一步做了一个非常有趣的实验来揭示这个问题。他们从VSI-Bench的问答数据中统计了各类物体的平均尺寸和平均房间大小,然后直接把这些平均值当作提示塞给模型:"冰箱平均宽度大约是这么多,房间平均面积大约是那么大,请根据这个信息回答问题"。结果让人震惊:仅仅靠这种统计平均值的小抄,模型的"物体绝对距离估计"得分就从0.14暴涨到0.61,甚至超过了某些专门经过三维问答训练的模型。

这说明,这类测试集中隐藏着大量的"非视觉捷径"——AI根本不需要真正看懂图像,只需要记住这个数据集的统计规律,就能得到不错的分数。而那些经过大量刷题训练的AI,实际上恰恰学会了利用这些捷径,而不是学会了真正的空间推理。

另一条现有路线是给AI配备专门的三维视觉模块——相当于给一个普通人配备专业测距仪和三维扫描仪。这类方法虽然能提供更丰富的三维信息,但代价是模型变得更庞大、推理变得更迟缓,而且这些专门的三维模块通常是固定的、不能随整体模型一起调整,就像给汽车装了一个不兼容的零件,两者很难真正配合默契。

二、问题的真正根源藏在AI内部哪里

研究团队并没有停留在发现问题的层面,而是深入追问:AI的空间理解能力为什么会这么差?问题究竟出在哪个环节?

现代视觉语言模型的工作方式,大致可以用这样一个比喻来理解:AI先用"眼睛"(视觉编码器)把图像转化为一串数字标记,然后把这串标记和文字标记一起输入"大脑"(大型语言模型的变换器层),由大脑综合处理后给出答案。

在大脑处理信息的过程中,有一个关键机制叫做"自注意力"。简单来说,这个机制让大脑能判断"哪些信息和哪些信息是相关的"。对于图像理解而言,视觉标记之间的相互关联尤为重要——大脑需要能认出"帧1里的这个角落,和帧2里的那个角落,其实是同一个物体"。

研究团队设计了一套诊断实验,专门测量AI内部的视觉对应关系识别能力:给AI看同一场景的两帧画面,问它"帧1中的这个点,对应帧2中的哪个点"。这个任务乍听简单,但对人类来说也需要一定的空间感。对于AI来说,这个能力直接反映了它内部是否真正建立了视觉上的几何一致性。

测量结果令人瞠目:无论是Qwen2.5-VL-7B还是LLaVA-NeXT-Video-7B,这两款最先进的视觉语言模型,其内部对应点匹配的准确率普遍低于5%,很多层甚至接近于零。更糟糕的是,这些模型还表现出明显的"自信错了"的特征:它们对错误答案往往信心十足,而对正确答案反而犹豫不定。这在统计上表现为"置信度-准确率"之间的负相关关系,也就是说,模型越自信,反而越可能是错的。

此外,测试还考察了模型跨时间帧的鲁棒性:当两帧之间的时间间隔越来越大时,匹配准确率会如何变化?基线模型的表现几乎呈断崖式下跌,超过8帧距离后,准确率就跌到初始值的5%以下,基本等于随机猜测。

这个诊断结果非常清晰:问题的根源不在视觉编码器,而在大型语言模型的核心层。这些模型在训练时大量接触文本,建立了强大的语言理解能力,但对三维几何世界的内在规律毫无敏感性。单靠刷空间问答题,只是在给这个根本缺陷贴创可贴,而GASP要做的,是从内部真正修复它。

三、GASP的核心思路:像培养运动员一样训练AI的空间感

GASP的核心理念,类似于体育训练中的"基本功训练"。一个优秀的篮球运动员,不是靠看录像记住"这种情况下应该投篮"来提高的,而是通过无数次的运球、传球、投篮练习,把对球的感觉和身体协调能力刻进肌肉记忆里。GASP要做的,就是给AI设计一套针对空间感知能力的"基本功训练"。

具体来说,GASP在AI的大型语言模型的每一个变换器层中,都插入一个轻量级的"对应点识别头"模块(correspondence head)。这个模块的作用是:接收该层的视觉标记,将它们映射到一个专门为几何匹配优化的嵌入空间中,然后判断不同帧中的视觉标记是否对应同一个三维空间点。

这个模块只在训练阶段存在。训练完成后,它会被彻底移除,模型恢复成标准的视觉语言模型,推理时不需要任何额外的三维输入或辅助模块。几何理解能力已经被"烙印"进模型内部的权重参数中了。

训练数据来自DL3DV这个大规模三维视频数据集,结合了LLaVA-Video-178K通用视频问答数据集,两者交替训练以防止AI"忘记"原有的语言能力。从DL3DV数据中,研究团队生成了约175万个视频序列,每个序列包含8到24帧,并自动标注了帧间的精确对应点关系和深度信息,形成了一套既有粗粒度(8×8网格)又有细粒度(24×24网格)覆盖的训练标注。

四、GASP的两套"基本功"训练方案

GASP的训练使用两个互补的损失函数,分别针对空间理解中两个不同层次的挑战。

第一套训练针对"视角无关的视觉对应"。可以用这样一个场景来理解:你看到一只猫从不同角度拍摄的两张照片,虽然猫的姿势、光线、拍摄角度都不同,但你能一眼认出猫鼻子的位置在两张照片中是对应的。这种能力叫做视角不变性。

GASP用一种叫InfoNCE的对比学习损失函数来训练这种能力。具体来说:给定帧A中的一个点,以及帧B中该点真正对应的位置(正样本),还有帧B中其他所有不对应的位置(负样本),训练目标是让AI把正样本的相似度分数推得尽量高,把负样本的分数压得尽量低。研究团队选择对比学习而非直接预测坐标,是因为对比学习学到的是视角无关的嵌入空间,能更好地应对不同场景和视角的泛化需求。

第二套训练针对"深度一致性",解决的是一个更微妙的三维歧义问题。考虑这样一个场景:房间里有两张外观几乎一模一样的椅子,一张在前景,一张在背景。纯粹基于纹理和外观的匹配算法,可能会把前景的椅子和背景的椅子错误地配对,因为它们看起来太像了。但从三维空间角度看,这两张椅子在不同深度,压根就不是同一个点的对应关系。

为了解决这类"视觉相似但三维位置不同"的混淆问题,GASP引入了深度一致性损失。其核心思路是:利用对应点匹配的软分布(即模型对每个候选位置的匹配置信度),计算期望的深度值,然后和真实深度值对比。如果模型错误地把前景椅子配到了背景椅子,那么预测深度和真实深度之间会有明显差异,损失函数就会惩罚这个匹配,迫使模型调整。这个损失使用相对误差形式,使得它对不同尺度的场景(无论是小房间还是大厅)都能统一适用,不需要每个场景单独校准。

这两套训练的目标是互补的:第一套教会AI"跨视角认出同一个东西",第二套教会AI"不要被外表相似但空间位置不同的东西所迷惑"。两者结合,才能建立真正鲁棒的三维几何理解。

最终的总训练目标是三者之和:原有的语言建模损失,加上带权重的对应关系损失,加上带权重的深度一致性损失。这样的多任务训练格局确保AI在学习几何感知的同时,不会丢失原有的语言理解能力。

五、从"内功"到"外功":内部改进如何转化为实际能力提升

训练结束后,研究团队首先回到内部诊断层面,验证GASP是否真正改变了AI的内部几何表示。

在对应点匹配准确率方面,训练后的GASP模型相比基线有了天壤之别的改变。以LLaVA-NeXT-Video-7B为例,基线模型各层的匹配准确率几乎全程贴近零线,而GASP训练后的模型在中层到深层(大约第20到25层)出现了一个明显的准确率峰值,最高超过了70%。Qwen2.5-VL-7B的情况类似,峰值出现在第25到28层。更重要的是,同时使用对应关系损失和深度一致性损失的完整模型,表现始终优于只使用对应关系损失的模型,这直接验证了深度监督的附加价值。

在置信度校准方面,基线模型的置信度与准确率之间呈现约负0.22的相关系数,意味着它越自信就越可能犯错。GASP训练后的模型将这个相关系数翻转为约正0.62,意味着它的信心和它实际的准确性高度匹配,这是一个行为上根本性的改善。

在跨时间帧鲁棒性方面,基线模型在超过8帧的时间距离后,准确率跌至初始的5%以下;而GASP模型即使在24帧的距离下,仍然维持着初始准确率的85%以上,展现出真正的时间不变性。

这些内部改进的最终考验,是能否转化为下游空间推理任务的实际能力提升。研究团队在三个主要基准上进行了评测。All-Angles Bench专门测试从不同视角理解场景的能力,VSI-Bench测试物体计数、路线规划、相对方向等综合空间推理能力,BLINK的空间子集则侧重于相对深度和多视角感知。

在All-Angles Bench的摄像机姿态估计任务上,LLaVA-NeXT-Video-7B的基线分数是22.7%,GASP版本提升到40.9%,绝对提升18.2个百分点;Qwen2.5-VL-7B从34.1%提升到52.8%,绝对提升18.7个百分点。在VSI-Bench的物体计数任务上,LLaVA-NeXT-Video-7B从23.5%跳升到52.5%,提升整整29个百分点;Qwen2.5-VL-7B从33.8%提升到41.6%,提升7.8个百分点。在BLINK的多视角推理子任务上,LLaVA-NeXT-Video-7B从42.1%提升到57.1%,提升15个百分点;Qwen2.5-VL-7B从41.5%提升到53.4%,提升11.9个百分点。

这些增益出现在一个额外重要的背景下:与GASP同数据量的"公平基线"(用相同DL3DV数据,但以问答形式训练)在多个关键指标上表现反而有所下降,比如摄像机姿态估计从22.7%降至19.8%,物体计数从23.5%降至21.4%。这再次证明,GASP带来的提升来自几何先验的注入,而非数据量的增加。

六、不牺牲"老本行":对通用能力的影响

一个自然而然的担心是:专门训练几何感知,会不会让AI忘掉原来的语言理解能力?

研究团队在Video-MME(综合视频理解)、TempCompass(时序理解)、NextQA(视频问答)等通用基准上进行了评测。结果显示,代价是存在但可以接受的:以Qwen2.5-VL-7B为例,NextQA分数从76.6%小幅降至74.7%,损失1.9个百分点。然而与此同时,Video-MME从59.3%提升到61.6%,TempCompass从68.4%提升到70.3%,这两个涉及时序理解的基准上反而有所进步。

这个现象背后有一个合理的解释:视频理解本身需要跨帧追踪物体的持续身份,也就是说"这一帧里的这个杯子,和下一帧里的那个杯子是同一个"。GASP训练的视角不变性表征,正好也服务于这种需求。相比之下,NextQA更多考察的是动作语义和因果关系,对精确空间定位的依赖较少,这解释了为何在那里出现了小幅下滑。

在更宽泛的CV-Bench基准(同时测试2D和3D任务)上,Qwen2.5-VL-7B加上GASP后的综合得分达到79.8%,优于许多规模更大的模型,比如InternVL2.5-8B(74.1%)和LLaVA-OneVision-7B(73.2%)。

七、训练配置的精细调校

研究团队还系统地研究了两个关键训练参数对最终效果的影响。

第一个参数是LoRA秩(rank)。LoRA是一种高效微调技术,秩越高代表对模型改动的"维度"越多,可以理解为给AI学习新技能时分配的"练习纸"数量。实验表明,内部对应点匹配准确率(Avg. PCK)随着秩的增加单调提升,但下游空间推理任务的性能有一个最优点,超过该点后反而会有轻微下滑:对于LLaVA-NeXT-Video-7B,秩512时效果最佳,对于Qwen2.5-VL-7B则是秩128时最优。这说明过高的秩可能在提升几何拟合的同时,开始损伤原有的语言能力,两者之间存在真实的容量权衡。

第二个参数是对应点识别头插入的层范围。实验比较了在模型较浅层、中间层、较深层以及所有层分别插入的效果。结论是:在全部层都插入,表现最佳且最稳定。这个结果有其内在逻辑:几何一致性是分层次的——浅层需要学习边缘和角点的低级特征对应,中间层需要理解物体部件的对应,深层需要维持语义-几何的对齐。如果只在深层施加几何监督,浅层仍然会学习视角依赖的特征,在特征传递中形成"表示瓶颈",限制最终效果。

八、GASP与位置编码的本质区别

研究团队特别说明了GASP和另一种常见技术——旋转位置编码(RoPE)之间的根本区别,因为这两者表面上都在处理"位置信息",容易被混淆。

RoPE的作用是告诉AI"这个标记在图像网格中的位置是(x, y)",它是一种输入级别的坐标信号,内容无关——无论这个位置是一面空白墙还是一张复杂的人脸,RoPE给出的信号是完全相同的。实验数据已经表明,即使使用了先进的RoPE,Qwen2.5-VL和LLaVA-NeXT的对应匹配准确率依然几乎为零,说明光有坐标信息是不够的。

GASP作用在完全不同的层面:它通过训练改变了模型内部的注意力机制中查询矩阵(Q)和键矩阵(K)的相互作用方式,使得两个视觉标记之间的相似度分数不仅反映"它们在语义上是否相似",还反映"它们在三维空间中是否对应同一个点"。从梯度传播的角度来看,GASP训练产生的梯度会通过对应点识别头反向传播,逐步调整每个变换器层的Q和K投影矩阵,使得几何对应的标记对得分高,几何不对应的标记对(即使语义相似)得分低。

用一个类比来说:RoPE教会了AI说"我在北纬39度、东经116度",而GASP教会了AI说"从这里和从那里看到的那栋楼,是同一栋楼"。前者是静态坐标,后者是动态的跨视角同一性认知。两者不是竞争关系,而是互补关系:RoPE提供"在哪里"的信息,GASP赋予AI"是什么、是哪个"的时空认知能力。

说到底,这项研究揭示了一个被长期忽视的根本问题:用大量空间问答题来训练AI的空间理解能力,就像让学生背诵地图数字来学习导航,终究只是表面工夫。真正的空间智能,应该来自对视觉世界几何一致性的内在感知——知道同一个物体从不同角度看起来依然是同一个,知道前景和背景的椅子尽管长得一样但处于不同深度。

GASP用对应点学习和深度一致性训练,把这种几何感知能力直接"烙"进了AI的注意力机制里,而不是让它去背答案套路。更难得的是,这种内在能力的提升在推理时完全不需要额外的三维输入或辅助模块——AI用标准的图像输入就能工作,几何感知已经成为它思考方式的一部分。

当然,目前这项研究还有一些局限性值得关注。深度信息依赖于伪真值深度数据的质量,在一些特殊场景下可能不够准确;而且在以动作语义为主的任务上,几何训练会带来轻微的性能损失,说明这两类能力之间存在容量权衡。未来的研究方向或许是把几何先验训练和适量的任务监督结合起来,取长补短,同时在更大规模的模型上验证这套框架的可扩展性。

归根结底,这项研究给出了一个值得深思的启示:让AI更聪明,有时候不是让它背更多题,而是教它更本质的能力。对于关心AI发展的读者,不妨思考这样一个问题:在其他需要"理解"而非"记忆"的AI任务上,是否也存在类似的根本性缺陷?有兴趣深入探讨的读者,可以通过arXiv:2605.30231查阅完整论文。

Q&A

Q1:GASP框架在推理时还需要额外的三维输入吗?

A:不需要。GASP的对应点识别头模块只在训练阶段存在,训练完成后会被彻底移除。推理时GASP模型和普通视觉语言模型完全一样,只接受标准的图像或视频输入,不需要任何深度图、点云或其他三维辅助数据。几何感知能力已经被编码进模型的权重参数中。

Q2:为什么视觉语言模型的对应点匹配准确率会那么低?

A:因为大型语言模型的预训练数据主要是网络文本,缺乏三维几何信息的直接监督。模型学会了语义理解,但没有建立跨视角的几何一致性认知。即使使用了旋转位置编码提供坐标信息,也只是静态坐标,无法告诉模型两帧中的同一物体是同一个实体。这是语言模型预训练本身的先天局限。

Q3:深度一致性损失和对应关系损失分别解决什么问题?

A:对应关系损失解决的是跨视角同一性问题,训练AI认出不同角度下同一个物体上的对应点。深度一致性损失解决的是前景-背景混淆问题:当两个外观相似的物体处于不同深度时,纯外观匹配会出错,深度损失通过惩罚深度不一致的匹配来强迫模型区分它们。两者互补,共同建立完整的三维几何感知。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。