这项由新加坡国立大学团队完成的研究,于2026年6月以预印本形式发布,编号为arXiv:2606.05753,研究方向聚焦于视觉语言模型的内部工作机制。
![]()
当一个学生在做题时,你会怎么判断他真正理解了哪个步骤?光看他最终答案对不对远远不够——你需要遮住他的草稿纸,看看他少了哪块内容后会答错,也需要检查他的每一个思考节点,判断答案是在哪一步真正成形的。这篇论文做的事情,本质上就是这样一件事:研究人员盯上了一类正在流行的AI视觉模型,发现大家用来衡量这类模型"思考质量"的尺子,量的其实是一把根本不重要的椅子。
视觉语言模型,简单来说就是那种既能看图又能回答问题的AI。给它一张图,问它"图里红色方块在哪里",它能用文字告诉你答案。近年来,研究者们在这类模型里加入了一种叫做"潜在视觉推理"(Latent Visual Reasoning,简称LVR)的机制。这个机制的核心思路是:在AI看完图、给出答案之前,先让它产生一些"中间思考令牌"——有点像强迫学生在写答案前先在草稿纸上画一个辅助图。这些中间令牌被训练成尽量接近图像中某个关键区域的特征表示,研究者们相信,令牌越接近目标,AI的最终答案就应该越准确。
衡量这种"接近程度"的标准尺子,是一个叫做余弦相似度的数学指标——通俗来说,就是测量两个向量方向有多一致,值越高代表越相似,最高为1。整个领域普遍接受一个假设:余弦相似度越高,中间令牌质量越好,最终答案越准确。这个假设听起来非常合理,就像厨师相信"食材备得越接近标准,菜的味道就越好"一样天经地义。
然而,新加坡国立大学的研究团队决定亲自验证这个"天经地义"的假设,结果发现它完全是反的。
一、那把"量错了东西"的尺子
为了系统测试这个假设,研究团队设计了五种不同版本的LVR模型,每一种在训练中间令牌的方式上都有所不同,但共享同一个基础模型、同一批训练数据、同样的训练步数。这五种版本就像五个用不同方法练习草稿技巧的学生,最后参加同一场考试。
最基础的版本叫LVR,就是标准的单阶段训练,每个中间令牌都被推着去接近图像中对应区域的特征向量,没有额外约束。第二个版本叫N-LVR,和LVR基本相同,但在训练时会给输入加一点随机噪声,就像在练习草稿时故意把铅笔握得不那么稳,强迫模型学会在模糊条件下仍然产生有用的输出。第三个版本叫D-LVR,它先按照标准LVR方式训练1500步,然后在接下来的1000步里完全去掉"草稿接近目标"这个要求,只保留"最终答案要对"这个压力,测试当重建约束被移除后模型会怎么变化。第四和第五个版本叫P-LVR-2和P-LVR-3,是"渐进式脚手架"设计——把中间令牌分成两个或三个阶段,第一阶段令牌对应一个扩大了1.5倍的大框区域,后续阶段令牌对应精确的小框区域,层层递进地引导模型从粗到细地思考。研究者认为这种设计会让模型的中间令牌质量更高,因为它有更清晰的层次指引。
五个模型都训练完后,研究团队同时测量了每个模型的余弦相似度和实际答题准确率(使用V*Bench这个专门测试在复杂场景中找细节的视觉推理基准)。结果让所有人大跌眼镜:这两个指标之间的皮尔逊相关系数(衡量两个变量一起变化的程度,-1表示完全反向,+1表示完全同向)达到了-0.94。这意味着余弦相似度和答题准确率几乎以相反的方向一起运动——余弦越高,准确率越低。
具体数字更能说明问题。渐进式版本P-LVR-2的余弦相似度从基础LVR的0.555提升到了0.777,提升幅度接近40%,重建误差也从3.79降到了1.55,按照原来的逻辑这应该是巨大的进步。但同时,V*Bench准确率从70.2%下降到了57.1%,足足掉了13个百分点。而N-LVR的余弦相似度和LVR几乎一模一样(0.556对0.555,差距连小数点后三位都难以区分),但V*Bench准确率却比LVR高了1.5个点。这两个发现放在一起,就好像你用温度计测量蛋糕烤得好不好,结果发现温度计示数越高的蛋糕反而越难吃——这把温度计量的根本不是烤蛋糕这件事。
这种反向关系在另外两个评测基准MMVP和BLINK上也得到了重复验证,说明这不是某个特定测试集的偶然现象。余弦相似度作为一个质量指标,在整个LVR体系中被证明是一个系统性误导信号。
二、草稿纸上的字,其实没人在看
发现了这个奇怪的反向关系后,研究团队面临一个更深的问题:既然余弦相似度高并不代表答案更好,那这些精心训练的中间令牌,在模型真正答题时,到底有没有被用到?
为了回答这个问题,研究团队设计了一种叫做"损坏测试"的实验。他们在模型生成答案的过程中,对那些中间令牌进行各种形式的干扰,然后观察答案是否发生变化。具体来说,他们使用了三种破坏方式:第一种叫"截断",就是直接把中间令牌的值全部置零,相当于把草稿纸上的内容全部清空;第二种叫"加噪声",用不同强度(0.1、0.3、1.0)的随机噪声干扰令牌,相当于把草稿纸上的内容涂抹得越来越模糊;第三种叫"替换",用来自另一个完全不同问题的令牌替换当前问题的令牌,相当于把这道题的草稿换成另一道题的草稿。
如果中间令牌真的是答题的关键依据,那这三种破坏应该会让准确率大幅下降。然而实验结果显示:五个模型在任何一种破坏下,V*Bench准确率的变化幅度都不超过4个百分点。而且对于表现最差的P-LVR-3来说,把中间令牌全部清零之后,准确率反而提高了2.1个百分点——也就是说,这个模型的中间令牌不但没有帮助,还在主动拖后腿。
这个发现意味着什么?那些耗费了大量训练精力、被精心调整到高度接近目标视觉特征的中间令牌,在推理时基本上被模型绕过了。模型根本没有把草稿当回事,它的答案来自别的地方。
这就引出了一个更令人困惑的问题:既然五个模型都绕过了各自的中间令牌,为什么它们的最终答案准确率还会相差13个百分点?令牌被绕过了,但训练令牌的过程明显改变了什么——那"什么"究竟在哪里?
三、答案藏在下游,而不是在草稿里
为了追踪答案究竟在模型的哪个位置成形,研究团队引入了一套叫做PRISM的诊断工具,它包含两个相互配合的探测手段,一起构成了一种可以"透视"模型内部信息流动的方法。
PRISM的第一个手段叫线性探针。原理是这样的:在模型运行的两个不同位置,各自提取一个"快照"——一个是模型即将输出答案那一刻的内部状态(研究团队称之为"答案解码状态"),另一个是中间令牌被注入回模型时的状态(研究团队称之为"反馈变量")。然后,用一个极其简单的线性分类器(就像画一条直线来区分不同类别),分别尝试从这两个快照中预测正确答案是A、B、C还是D。如果某个位置的快照能帮助分类器猜对答案,就说明答案相关的信息已经在那个位置聚集了。
研究团队在V*Bench的所有题目上用五折交叉验证的方式运行了这个测试(五折交叉验证是一种统计方法,可以减少偶然性,让结果更可靠)。他们还加入了一个"对照组":用随机打乱的错误标签重新训练探针,如果探针在随机标签上也能取得高准确率,那说明它只是记住了数据本身的某些模式,而不是真正读取了答案信息。这个对照组实验显示,在答案解码状态这个位置,真实标签的探针准确率比随机标签高出超过25个百分点,证明了所测量的东西确实是答案信息,而不是探针自己的能力误差。
具体数字方面,在答案解码状态这个位置,最好的模型LVR的探针准确率达到69.1%,而最差的P-LVR-3只有48.7%,而且这个排名和V*Bench的实际准确率排名高度吻合,两者的相关系数达到+0.98——几乎是完美的正相关。相比之下,在中间令牌的反馈变量这个位置,探针准确率只有32.5%到41.9%,仅仅略高于随机猜测的25%,而且这个数字和V*Bench准确率之间的相关系数只有+0.20,几乎毫无关联。
研究团队把这两个位置的探针准确率之差定义为"可解码性缺口",用字母G表示。G越大,说明答案信息在答案解码状态比在中间令牌处更丰富,即答案在从中间令牌到最终输出的过程中被大量"重建"或"组装"。LVR基础版本的G值高达36.6个百分点,而P-LVR-3的G值只有14.1个百分点。
这个G值本身就很有意思。它与V*Bench准确率的相关系数是+0.86,与损坏测试的反应强度的相关系数也很高(截断情况下为-0.77,轻微噪声情况下为-0.93)。也就是说,G值越大的模型,一旦中间令牌被破坏,答案准确率受到的影响反而越大——哪怕整体上令牌都是被"绕过"的,G值大的模型至少在某种程度上还在利用令牌作为传递答案信息的"通道",即便答案本身不在令牌里存储,令牌依然是这条信息流动路径上的必经之路。而G值小的P-LVR系列,连这条通道都几乎不用了,所以截断令牌对它们几乎没有影响,甚至有所帮助。
简单来说:答案不在草稿纸上,但对于某些模型来说,草稿纸至少还是信息流经的一个管道。对另一些模型,连这个管道功能也不复存在了。
四、训练改变了模型的"思维习惯",而不是草稿内容
既然令牌本身不重要,但五个模型的准确率差距又如此显著,那训练这些令牌的过程究竟影响了什么?
研究团队借助信息瓶颈理论(Information Bottleneck,一个来自信息论的框架)来解释这个现象。这个理论的核心思想是:一个好的中间表示,既要压缩掉输入中无关的杂质,又要保留与最终答案相关的信息。用做题的比喻来说:好的草稿既要简洁(不抄满无关内容),又要包含解题关键(把有用的东西写下来)。
LVR的训练损失包含两个部分:一个是"重建损失"(MSE或余弦相似度),推着中间令牌去接近视觉目标;另一个是"交叉熵损失"(Cross-Entropy,CE),推着模型的最终输出去接近正确答案。从信息瓶颈的角度看,重建损失处理的是"压缩"这一侧——把令牌锚定到一个信息量较少的视觉目标上,间接限制了令牌携带的信息量。而交叉熵损失处理的是"相关性"这一侧——它要求模型产出正确答案,从而对整个计算路径施加压力。
关键在于,交叉熵损失的压力作用于"产生答案的整套计算",而不是专门作用于中间令牌。这意味着,模型完全可以通过调整与中间令牌共享参数的语言模型部分来满足这个压力,而不需要让令牌本身真正承载答案信息。换句话说,训练令牌的过程通过反向传播(梯度流动)改变了语言模型的权重参数——就像练习画草稿的过程,实际上训练了学生的整体思维方式,而不只是让草稿纸上的内容变得更精准。
这就解释了为什么余弦相似度和准确率反向相关:余弦相似度测量的是"令牌与目标的接近程度",本质上是重建压力的成效;而准确率反映的是"语言模型参数经过训练后的综合质量",这主要由交叉熵压力决定。当你把更多精力(比如渐进式P-LVR方案)投入到改善令牌的重建质量时,可能反而减少了留给语言模型本身的有效训练空间,或者让训练过程走向了一个对参数质量不那么有利的方向。结果就是,令牌看起来更好,但模型实际上变差了。
N-LVR为什么反而更好?研究团队的解释是,在训练时给输入加噪声,从信息瓶颈的角度看相当于给令牌施加了一种"局部平滑性"的约束——迫使模型不依赖输入中过于细节的信息,从而产生了一种类似正则化的效果。这让语言模型参数在训练过程中获得了更健壮的塑造,最终答题能力略有提升。D-LVR在第1500步之后去掉重建约束,相当于给模型一段纯粹由交叉熵主导的训练时间,结果表现也比渐进式方案好。这些证据都指向同一个结论:是训练过程中语言模型参数的变化决定了最终表现,而不是令牌本身的质量。
五、PRISM:一把真正量对了东西的新尺子
研究团队提出PRISM作为替代余弦相似度的诊断工具,其价值不仅在于发现了余弦相似度的问题,更在于提供了一套有意义的替代测量框架。
PRISM的两个轴——线性探针和损坏测试——回答的是两个不同但互补的问题。线性探针回答"答案信息现在在模型的哪里",损坏测试回答"中间令牌有没有被实际使用"。单独使用任何一个都不够完整:光有线性探针,你知道答案在哪里,但不知道令牌是否参与了信息传递的路径;光有损坏测试,你知道令牌有没有被用,但不知道答案最终在哪里聚集。当两个工具一起使用时,可解码性缺口G和损坏测试的变化量之间出现了强相关(小噪声情况下相关系数为-0.93),这表明两个轴在测量同一件事的不同侧面,并且能够相互印证。
从更广泛的角度看,这个发现对整个视觉语言模型领域都有警示意义。不只是LVR,几乎所有在模型内部添加辅助监督信号的多模态学习方法,都存在同样的潜在问题:你认为重要的那个中间表示,未必真的是模型在答题时依赖的那个表示。训练过程可能通过共享参数走了另一条路,把真正有用的信息存储在了完全不同的地方。如果你的质量指标只测量那个名义上被优化的表示,你量的可能是一把没人用的椅子。
研究团队特别指出,这项研究的局限在于只测试了一个基础模型(Qwen2.5-VL-3B-Instruct)和一个训练数据集(Visual-CoT-438k),只有五个实验变体,统计上属于描述性相关而非严格意义上的因果证明。此外,所使用的评测基准都集中在需要细粒度空间感知的视觉任务上,对于更侧重整体推理的基准,这种余弦-准确率反向关系是否仍然成立,尚未被验证。线性探针本身也只能检测线性可解码性,不能完全反映下游层实际使用了哪些信息。
说到底,这篇论文讲的是一个在科学研究中相当普遍的问题:当我们测量某样东西时,我们是不是真的在测量我们以为自己在测量的东西。在这个案例里,余弦相似度这把尺子用了很久,被大家当作中间令牌质量的可靠指标,但实际上它测量的只是令牌和目标在方向上有多接近,而不是令牌在答题过程中有没有发挥作用、有没有携带正确答案所需要的信息。这两件事不是一回事,而整个领域在很长时间内把它们混为一谈了。
更耐人寻味的是,辅助训练目标确实在起作用——五个模型的13分差距证明了这一点。只不过它的作用路径不是研究者以为的那一条。它不是通过让中间令牌变得更好来提升答案质量,而是通过在训练过程中重塑语言模型的整体参数来实现的。这就像你以为是每天练习写字帖让你考试写得更好,实际上是写字帖这个行为本身锻炼了你的手腕肌肉和专注能力,而那些字帖本身在考场上根本没被你用到。
这对日后设计更好的视觉语言模型提出了一个有意思的方向:也许我们应该直接测量和优化那些真正载着答案的内部状态,而不是一遍遍打磨那个被绕过的中间令牌。PRISM提供了一套可操作的检查方法。有兴趣深入了解每个技术细节的读者,可以通过arXiv编号2606.05753查阅完整论文。
Q&A
Q1:余弦相似度为什么会误导视觉语言模型的研究?
A:余弦相似度只衡量中间令牌和目标视觉特征在方向上有多接近,但并不衡量这个令牌在模型答题时有没有被实际用到。新加坡国立大学的研究发现,模型在推理时基本绕过了这些中间令牌,所以令牌和目标有多接近对答案质量几乎没有影响,两者反而呈现出-0.94的反向相关。
Q2:PRISM诊断工具是怎么工作的?
A:PRISM包含两个互补的检查手段。第一个是线性探针,在模型的两个不同位置提取内部状态快照,用简单分类器测试哪个位置的状态包含更多答案信息,从而定位答案究竟在哪里形成。第二个是损坏测试,通过清零、加噪声或替换中间令牌,观察准确率变化有多大,判断令牌是否真的被模型依赖。两个工具结合使用,可以同时回答"答案在哪里"和"令牌有没有被用"这两个问题。
Q3:潜在视觉推理训练为什么还能提升模型表现,如果中间令牌被绕过了?
A:因为训练令牌的过程会通过反向传播改变语言模型的整体权重参数。交叉熵损失要求模型输出正确答案,这个压力作用于整个计算路径,使得语言模型参数在训练中得到塑造和优化。所以辅助训练目标是通过重塑语言模型的参数来提升性能,而不是通过让令牌本身携带更好的信息。不同训练方式决定了参数被塑造的质量,这才是五个变体之间13分差距的真正来源。





京公网安备 11011402013531号