当前位置: 首页 » 资讯 » 科技头条 » 正文

电子科技大学提出基于双路径注意力干预多模态大模型物体幻觉缓解

IP属地 中国·北京 机器之心Pro 时间:2025-11-28 18:16:36



近年来,针对视觉语言大模型(LVLMs)中物体幻觉的缓解方法逐渐受到广泛关注。在现有工作中,基于注意力调控的解码优化方法在抑制幻觉任务上取得一定进展,但仍普遍存在如下问题:

多数方法独立作用于视觉或文本单一模态的注意力,忽视了双模态注意力交互失衡这一核心诱因。缺乏对解码过程中跨模态依赖关系的量化衡量,导致干预机制粗放,缺乏理论指导。

为了解决上述问题,该论文提出 Owl,一种基于因果关系的双路径注意力干预框架,用于缓解视觉语言大模型中的物体幻觉。

论文的作者包括电子科技大学的余柳(第一作者)、陈忠昊、匡平(通讯作者)、冯志坤、周帆、 王岚和奥克兰大学的 Gillian Dobbie 教授。



论文标题:Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs论文地址:https://arxiv.org/pdf/2511.09018

首先,该论文提出一个结构因果模型(如图 1),将分解后的视觉与文本注意力形式化为关键的中介变量,视觉 / 文本输入、视觉 / 文本注意力、视觉 / 文本先验以及语言输出等关键变量。模型清晰地表明,视觉与文本先验这两个混杂因子,会通过扭曲对应的注意力(中介变量)来影响输出,最终导致幻觉。



图1 Owl 的结构因果模型

其次,该论文提出了 VTACR 指标,通过计算当前生成 token 对所有视觉 token 的平均注意力与对所有文本 token 的平均注意力之比,来量化模型在每一解码层对两种模态的依赖程度,为细粒度的注意力干预提供了可量化的信号指导。









最后,提出了双路径对比注意力干预方法,通过构建一个视觉增强路径与一个文本增强路径,并利用对比解码策略放大二者差异,从而动态纠正注意力偏差,在抑制幻觉的同时保持了生成的流畅性与丰富性。



图2 Owl幻觉缓解框架

在推理过程中,Owl 框架首先对语言解码器的注意力进行分层分解,将每个解码层的注意力权重明确划分为视觉注意力和文本注意力两部分。基于从大量样本统计得到的 VTACR 分布,框架自适应地沿着两条路径调制注意力:在视觉增强路径中,提升对图像 token 的关注并抑制文本历史的影响;在文本增强路径中,则强化文本依赖并削弱视觉信号。通过这种双路径对比解码策略,模型能够显著放大忠实预测与幻觉内容之间的差异,从而在抑制幻觉对象的同时,有效保留正确的预测结果。

实验结果

该论文在三个代表性的 LVLMs 上评估了 Owl 方法:LLaVA-1.5、MiniGPT-4 和 Shikra。对比基线包括传统解码策略(如集束搜索、贪心解码)以及当前先进的抗幻觉方法,如 VCD、PAI、OPERA 和 CausalMM,确保评估的全面性与公平性。

在 CHAIR 基准上,Owl 在句子级与实例级幻觉指标上均显著优于所有基线。例如,在 LLaVA-1.5 上,Owl 将句子级幻觉降低 17.6%,实例级降低 21.4%,同时生成了更长的文本,说明 Owl 在抑制幻觉的同时未牺牲内容丰富度。



表1 CHAIR基准实验结果

为验证 Owl 是否影响基本理解能力,该论文在五个 VQA 任务上进行了测试。图 3 结果显示,Owl 在多数任务上性能持平甚至略有提升,如在 VizWiz 上提升 7.6%,说明 Owl 方法在抑制幻觉的同时,反而增强了模型在复杂视觉场景下的理解能力。



图3 不同视觉语言模型在五个 VQA 基准和三个常见基准上的性能比较

该论文也使用 GPT-4V 对生成内容进行人工对齐评估,图 4 展示了 Owl 在 “Correctness” 和 “Detailedness” 上均有提升。以 LLaVA-1.5 为例,正确性提升 20.1%,详细度提升 11.3%,说明生成内容不仅更忠实于图像,也更具信息量。



图4 在 MSCOCO 数据集上使用 GPT-4V 进行的幻觉评估

论文展示了多个典型幻觉案例,Owl 通过双路径对比解码,有效抑制了这类错误,生成结果更贴合图像真实内容。图 5 揭示了 Owl 的内部工作机制:通过对比解码策略,它像一位精准的编辑,在模型生成每个词的瞬间,抑制由语言惯性引发的 “幻觉词汇”(红色),并提升忠于图像的 “正确词汇”(绿色)的优先级。图 6 则展示了 Owl 的最终成效:在面对多种易混淆的真实场景时,相比其他模型常 “无中生有”,Owl 能像一位严谨的侦探,始终坚守视觉证据,输出稳定而准确的结果。



图5 模型生成的Top-4 token逻辑值可视化



图6 POPE基准的定性案例对比

第一作者信息

余柳,电子科技大学博士生,在 ACL、AAAI、SIGIR、MM 等高水平会议和期刊发表论文 10 余篇,研究方向包括生成式 AI 的内生安全、幻觉和偏见的缓解负责任的 AI,社交网络、信息传播、虚假信息检测等。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新