当前位置: 首页 » 资讯 » 科技头条 » 正文

印度理工德里分校揭示多模态大模型的视觉幻觉危机

IP属地 中国·北京 科技行者 时间:2026-05-30 00:19:12


这项来自印度信息技术学院德里分校(IIIT Delhi)的研究,以预印本形式发布于2026年,论文编号为arXiv:2604.20665,感兴趣的读者可通过该编号查阅完整原文。

一、一个让人不安的秘密

现在的AI图像理解模型,真的在"看"图吗?

这个问题听起来有点荒唐——这些模型明明能分析医学影像、解读股票图表、回答关于图片的各种问题,它们怎么可能没在"看"?但研究者在深入检查之后发现了一件令人不安的事:许多顶尖的视觉语言模型(Vision-Language Models,简称VLM,也就是那种既能看图又能对话的AI),其实并没有真正理解图像。它们只是凭借多年积累的文字经验,"猜"出了一个听起来合理的答案。

这就好比一个从未去过巴黎的人,因为读过太多介绍巴黎的文章,所以能对巴黎的街道、咖啡馆、天气侃侃而谈。表面上他非常"了解"巴黎,但一旦涉及到那张特定旅行照片里的细节——某个不起眼的街角、一块褪色的招牌——他就完全抓瞎了,只能靠猜。这,就是目前许多AI视觉模型的真实状态。

研究团队将这个问题定名为"看见的代价"(The Expense of Seeing),并围绕这一核心命题建立了一套全新的诊断工具,试图从根本上揭示:当AI声称它看到了什么的时候,它究竟在做什么?

二、AI的"聪明汉斯效应"

要理解这个问题,得先了解一个历史故事。20世纪初,德国有一匹著名的马叫"聪明汉斯",据说能做数学题。主人问"3加4等于几",它就用蹄子敲七下。这引发了轰动,直到有人发现:这匹马其实不会算数,它只是极其敏锐地观察到了周围人群在预期答案附近时微妙的肢体变化,然后在那个时刻停下蹄子。它靠的不是数学,而是读取周围人的反应。

今天的视觉语言模型,正在上演一出现代版的"聪明汉斯"。当你给模型看一张胸部X光片,同时告诉它"病人有30年吸烟史",模型可能会自信地说"发现肺癌迹象"——不是因为它真的在图像里看到了什么异常,而是因为它从无数训练文本中学到了"长期吸烟→肺癌风险高"这个统计规律,然后把这个规律套用到了这张图片上,完全绕过了对图像本身的分析。

来自麻省理工、斯坦福等机构的多项研究已经陆续发现了这种现象。比如,一个叫做MATHVERSE的研究发现,某些数学视觉题目在把图像完全去掉之后,AI的得分反而更高——这意味着图像的存在不仅没有帮助,反而是一种干扰。另一项BabyVision的研究则发现,那些参数量达数百亿的顶尖模型,在完成连三岁幼儿都能轻松解决的基础视觉任务时,表现得一塌糊涂。MMVP的研究还指出,面对两张普通人一眼就能看出区别的图片,模型却声称它们是一样的。

这些发现指向了一个共同的结论:当前主流的视觉语言模型,存在严重的"功能性失明"。它们的眼睛(视觉编码器)并不像我们以为的那样工作。

三、现有评测方法为何是个骗局

发现了这个问题之后,学界的常规做法是什么?就是做减法——把图片去掉,看看AI得分会不会下降,如果下降了,就说明AI确实依赖了图像;如果没下降甚至上升了,就说明AI在走捷径。这个思路产生了两个常用指标,分别叫做"多模态增益"和"多模态泄漏"。

然而,研究团队认为,这种方法从根子上就错了,它犯了一个被命名为"消融谬误"的逻辑错误。道理其实很简单:当你把图片从题目里删掉,你同时删掉了信息本身,而非只是删掉了"用视觉传递信息"这个行为。这就好比想测试一个厨师的厨艺,结果把食材全拿走了,然后根据他做出了什么来评判。食材都没了,厨师当然什么都做不了——但这并不能告诉你他的厨艺好坏,它只能告诉你"没有食材的厨师无法做菜"这个毫无意义的废话。

此外,"多模态泄漏"这个指标本身也有缺陷。它用了一个"取最大值"的数学操作,这意味着它永远只报告正面数字,完全无法捕捉另一种糟糕情况——多模态训练过程把AI原本的文字推理能力给搞坏了。就像一个本来写文章写得很好的人,经过某种"强化训练"之后,写作能力不升反降,而这个指标完全看不到这种退步。

所以,现有评测体系的最大问题在于:它能发现数据集本身的偏见,却无法分辨那是数据集的问题还是模型架构本身的问题。这两件事被混在一起,导致研究者无法真正找到病根。

四、全新诊断框架:模态翻译协议

研究团队提出了一个完全不同的思路,他们把它叫做"模态翻译协议"(Modality Translation Protocol)。

这个思路的精妙之处在于:不删除信息,而是翻译信息。就像把一本中文小说翻译成英文——内容没变,只是载体变了。如果一个人中文版读懂了,英文版却读不懂,那不是书的问题,而是这个人的英文阅读能力出了问题。

具体来说,这个协议为每一个测试样本定义了三种考察方式。第一种叫"标准视觉语言模式",就是正常地把图片和文字一起给AI,记录它的得分,用S_Full表示。第二种叫"符号文本天花板模式",把图片里包含的关键信息转化成文字描述——比如把一张K线图替换成对应的开高低收价格数据——然后让AI只读文字,记录得分,用S_SymT表示。第三种叫"符号视觉模式",反过来,把原本的文字问题以图片的形式呈现给AI,让它只能通过视觉来读取问题本身,记录得分,用S_SymV表示。

这三种模式的核心逻辑是:每次测试的信息量保持不变,变的只是信息的传递渠道。如果一个AI真正能平等地处理视觉和文字信息,那这三种模式下的得分应该是接近的。任何显著的得分差异,就是模型的问题,而不是数据集的问题。

在构建"符号文本天花板"时,研究团队明确指出,他们不要求把图片的全部像素级信息都转成文字——这在技术上几乎不可能实现,因为一张图片包含的信息量远超任何文字描述。他们的要求是"任务充分":只要转化后的文字包含了完成该具体任务所需的全部关键信息就够了。比如,对于判断肺部是否有病变的任务,"符号文本天花板"只需要包含"肺部清晰,无异常"这样的关键医学判断,而不需要描述X光片每个像素的灰度值。

这个框架之所以有力,在于它天然地适用于一大类现实中的重要场景——在很多专业领域,图像本身就是某种结构化数据的视觉化呈现。股票K线图的背后是价格数据,医学影像的背后是放射科医生的诊断报告,分子结构图的背后是化学式字符串。在这些场景里,"符号文本天花板"的构建是非常自然的。

五、三把手术刀:量化视觉代价的三个新指标

有了这个协议作为基础,研究团队打造了三个全新的诊断指标,每一个都像一把精密的手术刀,针对不同的失败模式。

第一把手术刀叫做"看见的代价"(Toll of Seeing,简称ToS),计算方式是用S_SymT减去S_Full。换句话说,就是"如果把图片信息换成文字,AI能多得多少分"。如果这个数字大于零,说明视觉对AI来说是一种拖累——它自己的文字推理能力本来可以做得更好,但视觉通道的存在反而把它带偏了。这就像一个本来能用地图导航走到目的地的人,因为被要求"必须用眼睛观察路况",反而走错了路。

第二把手术刀叫做"看见的诅咒"(Curse of Seeing,简称CoS),计算方式是S_SymT减去S_SymV。这个指标衡量的是:同样的信息量,用文字传递和用图像传递,AI的接收效率差了多少。如果差异很大,说明AI对视觉信息和文字信息的处理存在严重的不对称性——它读文字流利,读图像却磕磕绊绊。一个真正优秀的"双语者"应该能流利地在两种语言之间切换,而不是明显地偏爱其中一种。

第三把手术刀叫做"看见的谬误"(Fallacy of Seeing,简称FoS),计算方式是S_Full减去S_SymV。这个指标的设计最为精妙,因为它不仅能判断AI是否有问题,还能精确定位问题出在哪里。FoS等于零是最理想的状态,表示AI在面对图文混合输入和纯图像输入时,表现一致。一旦FoS不等于零,就说明有问题,而问题的方向揭示了故障位置。

当FoS大于零时,说明AI在面对"把文字印在图片上"这种输入时表现更差,也就是它的视觉编码器(负责把图像转换成AI能理解的特征的部分)分辨率不够用——连图片里的文字都读不清楚,更别提理解复杂的图表或医学影像了。当FoS小于零时,情况更奇怪:AI在被强制"只用眼睛"时反而表现更好,这说明当图文同时输入时,负责把视觉信息和文字信息融合在一起的"翻译官"(跨模态投影头)出了问题,它把两种信息搅混了,反而比只处理一种信息更糟糕。这就像一个本来能分别流利地说中文和英文的人,当被要求同时用两种语言混杂着交流时,却越说越乱。

六、语义充分性标准:一把衡量AI诚实度的尺子

有了ToS、CoS和FoS这三个指标,研究团队进一步提出了一个综合性的评判标准,叫做"语义充分性标准"(Semantic Sufficiency Criterion,简称SSC)。它的表达式非常简洁:取ToS、CoS和FoS绝对值中的最大值,这个最大值等于零,才算合格。

这个标准的含义可以这样理解:只有当三个指标同时都等于零,一个视觉语言模型才真正做到了"诚实地看"。ToS等于零意味着视觉没有拖累文字推理;CoS等于零意味着AI对视觉和文字信息一视同仁;FoS的绝对值等于零意味着视觉编码器和融合机制都运转正常,没有任何一个环节出现故障。任何一个指标偏离零,都是在向我们发出警报:这个模型对视觉信息的处理存在问题,它声称"看到了"的东西,很可能只是它"猜到了"。

这个标准最大的实用价值在于它的"数据集无关性"。因为模态翻译协议从不删除信息,只是转换信息的形式,所以用SSC诊断出来的问题,可以确定地归咎于模型架构本身,而非数据集的偏见。这意味着研究者不再需要费尽心思去构建那些专门为了"消除语言捷径"而精心设计的特殊数据集——普通的日常数据集就能用来诊断模型。这对整个研究领域来说,是一个巨大的便利。

七、一个反直觉的预言:规模越大,问题越大

当前AI行业有一个广泛信奉的信条:模型越大,问题越少。参数越多,训练数据越多,最终就能涌现出越强大的能力,包括对视觉信息的理解能力。然而,研究团队提出了一个相当反直觉的假说,他们称之为"多模态缩放的发散定律"。

这个假说的逻辑是这样的:现有的视觉语言模型架构,视觉信息必须经过一个"翻译关卡",把连续的、高维的图像特征压缩转化成AI的语言处理模块能理解的离散信号。这个翻译关卡的容量是有限的,是一个固定的"信息高速公路"瓶颈。然而,当模型的语言处理模块不断扩大、推理能力不断增强时,这个视觉翻译关卡并没有同步扩容。

结果就产生了一个令人担忧的不匹配:语言推理能力以火箭速度提升,视觉信息传递能力却像驴车一样缓慢。两者之间的差距——也就是"看见的代价"(ToS)——不但没有缩小,反而越来越大。因为语言模块越强,依靠语言先验知识来绕过视觉处理的"动力"也就越强。视觉编码器越来越像一个被晾在一边的摆设,而不是一个被充分利用的信息来源。

这就像一家餐厅,不断招聘更顶尖的大厨,购买更先进的厨具,却始终没有扩建进货通道。食材依然只能通过那扇窄小的后门运进来,大厨和厨具再好,也无法施展手脚。用宏大的数字和漂亮的基准测试成绩来掩盖这个进货通道的瓶颈,只是在制造繁荣的幻觉。

研究团队将这个假说可视化为一张图:随着模型参数量的增长,模型在符号文字模式下的得分(S_SymT)像对数曲线一样急剧攀升,而模型的实际综合得分(S_Full)则以更平缓的速度增长。两条曲线之间的阴影区域——就是那个日益扩大的"看见的代价"——在图中越来越宽,越来越显眼,像是一个无声的警告。

八、从诊断工具到建造蓝图:四条出路

发现了问题,研究团队当然不满足于只是喊出警报,他们还给出了解决方向。他们建议整个研究领域把SSC从一个被动的诊断指标,升级成一个主动的设计蓝图。

第一条出路是"语义等价工程"。未来的训练数据集不应该是从网上随意爬取的图文对,而应该是经过精心设计的"等价四元组",也就是同一个信息的图片版、文字版、图片化文字版、文字化图片版四种形式同时存在,且信息量经过严格验证是对等的。这相当于给AI做"四语种同声传译"训练,而不是只让它接触一种语言。

第二条出路是把ToS、CoS、FoS三个指标引入训练过程,成为损失函数的一部分。简单来说,就是在训练AI的时候,一旦发现它的视觉理解分数和文字理解分数差距过大,就对它施加惩罚,引导它更诚实地使用视觉信息,而不是抄文字的近道。

第三条出路是把FoS作为动态的架构调整信号。当检测到"负崩溃模式"(FoS小于零,意味着跨模态融合出了问题)时,系统可以自动扩展或调整那个视觉信息翻译关卡的容量,让它能处理更多、更准确的视觉信息。这就像发现进货通道塞车了,就实时拓宽通道,而不是等到餐厅整体垮掉才去检修。

第四条出路是建立"动态SSC审计引擎"。在AI系统正式部署运行之后,持续地对输入进行随机的模态翻译测试,实时监控这个系统的"看见代价"是否在可接受范围内。一旦发现异常,立刻发出警报。这对于那些用于医疗诊断、金融决策等高风险场景的AI系统来说,尤为重要。

九、如果成功了,世界会有什么不同

研究团队描述了这个框架如果被广泛采纳,可能带来的变化。

在AI评测层面,排行榜上的冠军将不再仅凭综合准确率来决定,还必须同时公开其ToS、CoS和FoS数值。一个在综合测试里拿了80分的模型,如果它的"文字天花板"是95分,那15分的"看见代价"会被清楚地标示出来,任何人都能看到这个模型距离真正的视觉理解还有多远的差距,而不是被一个光鲜的80分所迷惑。

在医疗、金融等高风险应用层面,信任不能再依赖于直觉或模糊的基准测试,而必须是可量化的、可审计的。SSC提供了这种量化工具。研究团队设想,未来的监管框架可能会要求AI开发商证明其系统的max(ToS, CoS, |FoS|)接近于零,才能获准在涉及人命关天的场景中使用——这将是AI监管从定性走向定量的一大步。

在整个行业的资源分配层面,研究团队认为当前"越大越好"的军备竞赛式扩张,应该让位于对视觉信息传递瓶颈的精准改造。真正的进步不是参数量增加了多少,而是"模态对称性"提升了多少——也就是AI对待视觉信息和文字信息是否越来越公平。

说到底,这项研究揭示的核心问题,是AI系统在多大程度上真正感知了它声称感知到的东西。这不是一个小问题,在AI越来越多地被用于诊断疾病、分析市场、辅助驾驶的今天,一个"看起来在看但其实没在看"的模型,是一个真实存在的风险。

研究团队的贡献,在于把这个模糊的担忧变成了一套可测量、可操作的工具。它不是拿掉图片看AI慌不慌,而是翻译图片看AI懂不懂。这两种思路的区别,正是"暴露数据集偏见"和"定位架构瓶颈"的区别——前者只能告诉你有没有问题,后者能告诉你问题在哪里、有多严重。

对于普通用户来说,这意味着下一次当你看到某款AI大模型在图像理解任务上取得了"突破性成绩"时,值得多问一句:它的"看见代价"是多少?它的"语义充分性"达标了吗?如果这些数字拿不出来,那所谓的"突破",或许只是统计猜测披了一件视觉理解的外衣。

有兴趣深入研究的读者,可以通过arXiv编号2604.20665查阅完整论文,自行探索这套诊断框架的数学细节和完整论述。

Q&A

Q1:视觉语言模型的"功能性失明"具体是指什么现象?

A:功能性失明是指视觉语言模型在接收图像输入时,并没有真正分析图像内容,而是依赖训练数据中积累的文字统计规律来"猜"答案。比如给模型看一张肺部正常的X光片,同时告知病人有吸烟史,模型可能因为文字先验知识(吸烟→肺癌风险)就预测出癌症,完全无视图像显示的清晰肺部,这就是典型的功能性失明。

Q2:"看见的代价"(ToS)和传统的多模态增益指标有什么本质区别?

A:传统多模态增益是把图片删掉后看得分变化,这个做法同时删掉了信息本身,无法分辨是模型架构的问题还是数据集的问题。"看见的代价"则是把图片信息翻译成文字后与原始视觉输入对比得分,信息量保持不变,只改变传递渠道。因此ToS检测出的差异,可以明确归咎于模型的视觉处理能力,而不是信息丢失造成的。

Q3:多模态缩放的发散定律是说越大的模型视觉理解越差吗?

A:不完全是这样。发散定律说的是:随着模型规模增大,文字推理能力提升速度远快于视觉信息传递能力的提升速度。所以大模型的综合得分可能在上升,但"文字天花板得分"上升更快,两者之间的差距——也就是"看见的代价"——反而会越来越大。换句话说,大模型在整体上可能更强,但它越来越倾向于靠文字猜测而非真正的视觉理解来答题。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新