![]()
这项由清华大学、西北工业大学和北京交通大学联合开展的研究,以预印本形式于2026年5月25日发布在arXiv平台,论文编号为arXiv:2605.25437v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
研究团队提出了一个让很多人意想不到的问题:当一台智能机器同时看到来自多个摄像头或传感器的画面时,它真的会因为"看到的更多"而"理解得更好"吗?答案并不总是肯定的。事实上,在某些情况下,给机器同时展示更多画面,反而会让它比只看一张图时表现得更差。这项研究不仅发现了这个现象背后的根本原因,还提出了一套名为MARS的解决方案,能够让人工智能在面对来自不同传感器的复杂多源信息时,真正做到"看得多、懂得多"。
一、 多一双眼睛,真的有帮助吗?
考虑这样一个场景:夜里你走在一条昏暗的街道上,普通摄像头拍出来的画面漆黑一片,几乎什么都看不清。但如果换成红外热成像摄像头,前方的行人会清晰地以亮白色轮廓显现出来。现在问题来了,如果把这两路画面同时喂给一个智能视觉系统,它会利用红外图像的优势,准确识别出行人吗?
按理说,信息越多越好。但研究团队发现,现有的视觉推理模型在面对这种情况时,往往会被清晰度更差的普通摄像头画面"带偏",导致最终判断错误,而单独只给它看红外图像反而表现更好。这个现象并非个例,而是在医学影像、自动驾驶、遥感卫星等大量真实应用场景中普遍存在的问题。
问题的根源在于,现有的智能推理框架在训练时有一个隐含的假设:更多的图像意味着更多有用的信息,它们应该互相补充、相互加分。但现实中,不同传感器采集的图像在物理特性和语义内容上可能差异巨大,比如红外图像捕捉的是热量分布,深度图像记录的是距离信息,普通RGB彩色图像捕捉的是人眼看到的颜色和纹理。这些信息之间不仅不总是互补,有时还会互相干扰甚至矛盾。而现有的模型缺乏一种明确的机制来判断"当前这张额外的图片,到底是在帮我还是在添乱",于是便陷入混乱。
二、 强化学习让机器学会推理,但也带来新麻烦
要理解研究团队的解决思路,需要先了解一种近年来让人工智能变得更"聪明"的训练方式——通过可验证奖励进行强化学习(RLVR)。这种方式有点像给一个学生批改作业,每次他答对了就给一个正向反馈,答错了就给负向反馈,让他在反复练习中逐渐摸索出解题规律。DeepSeek-R1、Kimi等知名大模型都采用了类似的训练机制,并由此展现出令人印象深刻的链式推理能力——也就是一步一步有逻辑地推导答案,而不是直接猜测。
然而,当把这套训练方式用于多源视觉任务时,麻烦出现了。在单一图像的情况下,奖励信号比较清晰,模型可以从中学到稳定的规律。但在多源情况下,奖励信号来自多张图的共同输入,如果其中某张图提供的信息与任务无关甚至产生干扰,模型就很难分清哪个信息起了积极作用、哪个起了消极作用。现有方法在计算"优势值"(一种衡量某次回答比平均水平好多少的指标)时,完全基于多源图像一起输入的结果,没有任何参照基准来衡量"某个单独的图像单独使用时能做到多好"。于是,模型被迫在一锅乱炖的奖励信号中学习,效果可想而知。
三、 单源锚点:给多源融合装上一个比较基准
研究团队提出的MARS框架,核心思想可以用一个生动的类比来理解:考试改卷时,老师不仅看你本次答题的绝对分数,还要看你这次的分数相比"只用最好的单一参考资料"时能提升多少,这个提升量才是真正衡量"多参考资料是否有价值"的关键。
在MARS中,"单源锚点"扮演的就是这个参考基准的角色。具体做法是:在训练时,除了生成把所有图像一起输入的多源推理结果,还分别生成只用单一图像(比如只用红外图、或只用深度图)的推理结果,并记录它们各自的奖励分数。随后,在计算优势值时,不再只用多源结果之间的相互比较,而是把单源结果的奖励分数也纳入进来,共同构成一个"混合统计量",即把单源和多源的奖励放在一个池子里计算均值和方差,然后用这个更有参照意义的统计量来规范化多源推理的优势值。
这个操作乍看简单,但效果却很关键。当多源融合的表现优于单源时,由于均值被单源的较低分数拉低,多源结果的优势值会被放大,从而鼓励模型更积极地融合多源信息。相反,当多源融合表现不如单源时,均值被单源的较高分数抬高,多源结果的优势值会被压低甚至变为负值,向模型发出"这次多源融合帮了倒忙,应该抑制这种混乱融合"的信号。更重要的是,单源的推理结果并不参与模型参数的梯度更新,只是作为统计参考,不会改变多源策略的学习目标,而是单纯地在规范化阶段发挥调节作用。
四、 从数学角度看,这个方法为何有效
研究团队不只是凭直觉提出了这个方案,还从理论上给出了严格的数学证明,这里用最通俗的方式来解释这两个核心结论。
第一个定理关于"无偏性"。通俗地说,就是证明了MARS的这种计算方式,从统计期望的角度看,和标准的在线策略优化(模型一边玩一边学)等价,不会引入系统性的偏差或错误方向。换句话说,它没有因为引入单源锚点而走歪,基本方向仍然正确。
第二个定理更有意思,叫做"梯度分解定理"。它揭示了MARS实际上在优化两件事:一件是标准的多源推理奖励,另一件是多源融合相对于单源的"信息增益"。具体来说,模型的优化梯度可以分解为两个部分之和:一部分是传统多源强化学习的梯度,另一部分是与"信息增益量"成比例的额外梯度项,这个信息增益量被定义为多源平均奖励减去单源平均奖励的差值。当差值为正(多源更好),这个额外梯度项推动模型更积极地利用多源融合;当差值为负(单源更好),这个额外梯度项则反向发力,抑制模型盲目融合多源信息的倾向。这就在数学层面保证了模型会动态地、有原则地权衡不同来源的信息,而不是一刀切地认为"更多图像总是有帮助的"。
五、 实验怎么做的,又发现了什么
研究团队在多个具有代表性的多源视觉数据集上进行了系统实验。数据集覆盖了四种典型场景:用深度图与RGB图结合的空间理解任务(SpatialQA数据集)、用红外图与RGB图结合的低光照场景人物检测与视觉问答(LLVIP数据集)、来自自动驾驶的多视角摄像头理解(nuScenes数据集),以及包含文字的文档理解任务(OCR-VQA数据集)。基础模型选用的是Qwen2.5-VL-3B,一个有30亿参数规模的视觉语言大模型。
为了更全面地评估方法的价值,研究团队设计了两种比较维度。一种是"多源模式",即把所有图像同时输入模型,这是被测试的主要场景。另一种是"单源联合模式",即对每张图像单独推理,取各个单源结果中最好的那个,作为多源融合的理论上限来参照。
实验结果揭示了几个令人深思的规律。第一,在所有任务中,"单源联合模式"(取最好的单源结果)都大幅优于"朴素多源模式"(直接把所有图像一起喂给模型),这一差距在某些任务中非常悬殊,充分证明了"看到更多并不等于理解更多"这个核心问题的真实性。第二,包括SFT(监督微调)和CoT(思维链)在内的有监督训练方法,以及GRPO、DAPO这样的强化训练方法,在多源模式下的表现都显著低于单源联合模式,说明现有的主流方法都没能解决这一问题。第三,加入MARS之后,在GRPO基础上的多源推理平均准确率提升了3.2%,在DAPO基础上的提升更是达到了4.9%,而且在四个不同任务的数据集上均有提升,具有一致性。单独来看,红外检测任务上提升了3.8%,多视角理解任务上提升了7.0%,这两项提升尤为突出。与此同时,单源联合模式的性能在加入MARS后也同步提升,GRPO下提升了1.1%,DAPO下提升了2.2%,说明多源信息增益的学习对单源推理本身也有正向迁移效果。
六、 细节验证:这个方法到底稳不稳
研究团队还做了一系列消融实验,来验证方法的各个关键设计选择是否合理。
关于单源样本数量的选择,实验发现当单源样本数量从零逐渐增加时,性能先提升后趋于饱和。数量太少时,参照基准不够稳定;数量太多时,单源样本会主导统计计算,反而削弱了多源信息的学习。研究团队最终选择每个视觉来源各生成一条单源样本,与多源来源数量相等,这在性能和稳定性之间取得了最佳平衡。
关于计算效率,研究团队将MARS与"单纯增加多源轨迹数量"的方案进行了对比。在同等或接近的GPU计算时间下,MARS的性能大幅优于仅靠增加轨迹数量的方案。具体来说,用MARS(总轨迹数14份,含12份多源加2份单源)比用更多多源轨迹(17份全多源)能取得更高的性能,计算开销却只是前者的约82%。这说明MARS的性能提升来源于方法本身的设计,而不是简单堆砌更多的训练数据。
关于奖励质量的变化,研究团队比较了模型在训练前后的奖励统计数据。一个关键发现是,MARS并没有明显提升多源推理的"最好单次表现"(最大奖励),而是显著提升了"平均水平"(从1.49升至1.62),并且也带动了单源推理的最大奖励(从1.55升至1.63)。这说明MARS真正起作用的地方在于让模型整体上更好地利用多源信息,而不是靠随机探索碰到一些好的答案。
关于视觉退化的鲁棒性,研究团队还模拟了真实世界中常见的图像质量问题,包括高斯噪声、运动模糊和遮挡,对输入图像进行随机降质。实验结果显示,MARS在所有退化类型下均保持了更好的性能,在高斯噪声下仅下降0.5%,在运动模糊和遮挡情况下甚至还额外提升了0.8%,比基线方法高出1.3个百分点。这种鲁棒性来自MARS在优化时自动降低"表现不佳的图像来源"的贡献权重,将注意力集中到更可靠的图像上。
七、 模型在推理时是怎么"想"的
为了直观展示MARS的效果,研究团队还展示了模型推理过程的实际文本输出,让我们能看到模型在两种训练方式下的"内心独白"有何不同。
在红外图像辅助的目标检测任务中,使用标准GRPO训练的模型看到RGB图像光线不足时,只识别出了骑摩托车的人,输出了一个人的边界框坐标。而使用MARS训练的模型则在推理过程中明确提到"红外图像提供了更好的对比度",并进一步注意到在红外图像中还有一个在普通摄像头下几乎不可见的站立行人,最终输出了两个人的边界框坐标,比前者更准确。
在深度图辅助的视觉问答任务中,场景是询问"飞盘有没有离开男人的手"。标准GRPO训练的模型看到深度图是一片白色(说明没有有效的深度信息),却因为过于依赖这个无效输入而变得犹豫不决,最终错误地回答"没有离开"。而MARS训练的模型则主动识别出深度图无效这一情况,在推理文本中明确写到"在没有深度数据的情况下,依据RGB图像的视觉证据(飞盘的飞行轨迹)可以判断飞盘已经离手",并给出了正确的"是"的答案。这两个案例直观地展示了MARS赋予模型的能力:主动识别哪个来源的信息更可靠,并据此做出更准确的判断。
八、 这个方法跟其他方法比,还有哪些优势
除了性能提升,MARS还有几个工程层面的重要优势。它只需要一个策略模型,不需要训练额外的参考模型或评估模型,这与某些需要双模型的方法相比节省了相当的存储和计算资源。单源样本只参与统计计算,不计算梯度,因此额外的计算开销非常有限。整个方法以插件形式工作,不需要修改GRPO或DAPO的核心训练逻辑,只需在优势规范化这一步引入单源统计,因此可以方便地接入任何基于群组强化学习的视觉推理框架。研究团队在3B和7B两种规模的模型上都进行了验证,均取得了一致的性能提升,说明该方法与模型大小无关,有良好的可扩展性。
说到底,MARS回答的是一个看似简单却藏着深刻道理的问题:多不一定好。在多源视觉推理这件事上,关键不是塞给模型更多图像,而是让模型真正理解每张图像到底在帮忙还是在添乱。MARS通过引入单源锚点这个简洁的机制,让模型在训练时时刻保有一个"如果只用最好的单一来源能做到多好"的参照,从而学会动态地权衡和筛选信息,而不是盲目地混合一切。这对于真实世界中的自动驾驶、医疗影像分析、卫星遥感等大量依赖多传感器数据的应用场景,都有实际的参考价值。当然,目前这项工作主要在有限的几个数据集和模型规模上进行了验证,未来在更大规模模型、更多样化的传感器组合以及更复杂推理任务上的表现,仍然值得持续关注。这也引出了一个有趣的问题可以继续思考:在人类自己处理多种感官信息时,是否也存在类似的"信息干扰"问题,我们的大脑又是如何自动筛选的呢?有兴趣深入探索原始研究细节的读者,可以在arXiv平台搜索编号arXiv:2605.25437v1找到完整论文。
Q&A
Q1:多源视觉推理中"单源锚点"是什么意思,有什么用?
A:单源锚点是MARS方法中的核心设计,指的是在训练时,除了用所有图像一起输入模型以外,还单独用每张图像分别做一次推理并记录得分。这个单源得分被用作参照基准,帮助模型判断"多张图一起用,到底比单独用最好的那张有没有提升"。如果多源融合表现更好,模型会受到鼓励;如果反而变差,模型会受到抑制,从而避免盲目融合。
Q2:MARS方法在哪些场景下会特别有效?
A:MARS在那些不同来源的图像差异较大、且某一来源明显更关键的场景下效果最突出。典型的例子包括夜间的红外与普通摄像头融合、深度图与彩色图融合的空间理解、自动驾驶的多角度摄像头数据,以及医疗影像中不同模态的融合。实验中,在红外检测任务上提升了3.8%,多视角理解任务上提升了7.0%。
Q3:MARS方法需要修改原有模型结构或增加额外模型吗?
A:不需要。MARS只修改了训练过程中优势值规范化这一步的计算方式,不改变模型结构,也不需要额外训练参考模型。单源样本只用于统计计算,不参与梯度更新,因此额外的计算开销很小。它可以像插件一样接入GRPO、DAPO等主流强化学习框架,具有很强的通用性。





京公网安备 11011402013531号