![]()
这项由弗吉尼亚大学与Capital One联合开展的研究,于2026年6月以预印本形式发布,论文编号为arXiv:2606.03712,有兴趣深入了解的读者可通过该编号查询完整论文。
**一个看似理所当然的假设,可能从一开始就是错的**
近年来,大语言模型(比如大家熟悉的ChatGPT背后的那类技术)已经不满足于只处理文字了。研究者们开始尝试让它们"读懂"图结构数据——比如社交网络里谁认识谁、论文引用关系中谁引用了谁、分子结构中哪个原子连着哪个原子。于是,一种叫做"图语言模型"(Graph Language Models,GLMs)的新技术应运而生。
这种技术的核心思路听起来很聪明:把复杂的图结构"翻译"成一串文字符号(专业上叫"图token"),然后喂给大语言模型处理。就像把一张地图描述成一段文字,然后交给一个只认识文字的人来理解。但弗吉尼亚大学和Capital One的研究团队心里有一个疑问:这个翻译过程真的靠谱吗?大语言模型在处理这些"翻译来的图信息"时,内部到底发生了什么?
事实证明,答案相当令人意外——这些模型内部出现了一种被研究者称为"图沉没现象"的奇特行为,而这个现象直接揭示了当前图语言模型的一个深层缺陷。
**一、什么是"注意力沉没",为什么图模型也会中招**
在正式介绍研究发现之前,需要先聊一个背景概念,理解它会让后面的一切豁然开朗。
大语言模型在处理一段文字时,会用一种叫做"注意力机制"的方式来判断哪些词对当前理解最重要。可以把它比作一个课堂里的学生,老师说话时,学生会把更多注意力放在关键词上,而忽略无关的词。然而研究者发现,在实际运行中,这些模型会养成一个奇怪的习惯:它们会把大量"注意力"集中投向某些特定的词,而这些词本身往往没什么实际意义。这就像那个学生突然对黑板角落里一个不重要的标点符号格外着迷,而忽略了老师正在讲的重要内容。这种现象被称为"注意力沉没"(Attention Sink)——某些词像黑洞一样吸走了大量注意力,却不传递真正有用的信息。
这种现象在纯文字模型和视觉语言模型中早已被发现和记录。研究团队的核心问题是:当图语言模型把图结构翻译成token并喂给大语言模型时,会不会出现类似甚至更严重的问题?
研究团队选择了两个具有代表性的图语言模型作为研究对象。第一个叫LLaGA,它的工作方式是把图中的每个节点和它的邻居关系原样排列成一串token,就像把一棵家谱树按顺序写成一列名字。第二个叫TEA-GLM,它先用一个专门处理图的神经网络(GNN)把整个图的结构压缩提炼,然后把精华变成固定数量(5个)的特殊token,再交给大语言模型处理。这两种模式代表了当前图语言模型的两种主流设计思路,分别在三个学术数据集上进行了测试:Cora(引用网络)、Arxiv(论文数据库)和PubMed(生物医学文献库),涵盖了节点分类和链接预测两类典型任务。
**二、激活值异常:模型内部的"噪声制造者"**
研究团队首先做了一件事:直接"打开"这些模型,看看图token在模型内部的神经元激活情况。可以把神经网络想象成一个有成千上万个开关的控制面板,每个开关有自己的亮度(激活值)。正常情况下,大多数开关应该保持在一个适中的亮度范围内,随着处理内容的不同而温和地变化。
然而,研究者发现了一个异常现象:在所有4096个"开关"(隐藏维度)中,绝大多数都保持在很低的亮度,但有极少数几个开关会突然亮得异常刺眼。在LLaGA中,第1512号和第2533号维度会出现这种巨大的激活尖峰;在TEA-GLM中,第1512号维度几乎在所有数据集和所有任务上都会出现这种异常高亮。这个模式跨越数据集、跨越任务,非常稳定可重复。
这些产生异常激活的图token,就是研究团队定义的"图沉没token"(Graph Sink Tokens)。研究者用一个数学公式来识别它们:对每个图token的隐藏状态做规范化处理后,取其在已知"沉没维度"上的最大绝对值,如果这个值超过预设阈值(设为15.0),就把它标记为图沉没token。
值得注意的是,第1512号维度的重复出现有些耐人寻味。在纯文字版的LLaMA模型中,已知的沉没维度通常是2533号,而1512号维度的持续出现暗示这是图token注入后新涌现出来的现象,而不仅仅是语言模型底层特性的简单继承。
**三、它们总是出现在队伍的最前面**
发现了这些异常激活的图token之后,研究团队接着追问:这些"噪声制造者"在图token序列中是随机分布的,还是有规律可循?
答案非常清晰:它们几乎总是聚集在图token序列的最前面。对于TEA-GLM来说,5个图token中,沉没token几乎总是出现在位置0和位置1。对于LLaGA来说,虽然它的图token序列长得多(节点分类任务有111个,链接预测任务有222个),但沉没token的频率在靠近序列起始位置时也明显更高。
更有意思的是,在LLaGA的设计中,不同位置的图token有明确的"身份":位置0是被分析的中心节点,后面的位置依次是它的一阶邻居、二阶邻居,如果邻居数量不够,会用特殊的[PAD](填充)符号补位。研究者仔细检查后发现,激活值最高的前两个沉没token,在所有数据集和所有任务上,几乎清一色都是[PAD]符号——也就是那些没有实际内容的占位符!而代表真正中心节点的位置0的token,从未被识别为沉没token。
这个发现第一次在直觉层面敲响了警钟:模型内部最"吵闹"的token,居然是那些本应什么都不包含的占位符。这就像一场会议上,真正有实质内容的发言人反而沉默,而会议室里的空椅子在大声喧哗。
**四、"吵闹"不等于"重要":注意力并不追随激活值**
发现了图沉没token在激活层面的异常之后,研究团队开始追问下一个问题:既然这些token在模型内部如此"高调",其他token在处理信息时会不会把大量注意力都集中在它们身上?毕竟在传统的注意力沉没现象中,高激活往往与高注意力相伴而生。
研究者绘制了详细的注意力热力图,把模型每一层的注意力权重都可视化出来,横轴是图token的位置,纵轴是提问的文字token位置(或者模型层数),颜色越亮代表注意力越高。
TEA-GLM的结果非常直接地打破了"高激活=高注意力"的预期。沉没token主要集中在位置0和1,但热力图显示,模型的注意力权重在后面的位置(2、3、4号)往往更高,特别是在模型较低和中间的层中。换句话说,沉没token很"响",但模型并没有特别"听"它们的。
LLaGA的情况更加微妙。热力图中出现了若干竖向的亮条,说明某些固定位置的图token持续从文字token那里获得注意力,且这种模式在不同层之间相当稳定。这些亮条的位置与沉没token区域有部分重叠,但并不完全吻合,而且这些沉没位置的注意力并不明显高于非沉没位置。更重要的是,LLaGA中激活值最高的沉没token往往是[PAD]占位符,这些固定注意力通道更可能只是模型对填充符号的惯性响应,而非对有意义图结构的关注。
从全局来看,两个模型都指向同一个结论:图沉没token在激活层面是"异常响亮"的,但这种响亮并不会自动转化为注意力上的主导地位。这种现象与麻省理工学院等机构最新对纯文字大语言模型的研究相吻合——那些研究也发现激活尖峰和注意力沉没是两种相关但不严格绑定的机制。
**五、切除实验:拔掉"噪声制造者",模型照样工作**
到目前为止,研究发现了图沉没token激活异常却不一定抢占注意力的矛盾。接下来要做的,是更直接的功能性检验:如果把这些被认为最显眼的token直接从序列中删掉,模型的表现会大幅下降吗?
研究团队设计了三种干预实验。第一种叫"切除沉没token",对每个测试样本找出激活值最高的两个沉没token,把它们从图token序列中删去。第二种叫"切除非沉没token",作为对照,从非沉没位置随机选两个token删去(对15个随机种子取平均,以减少随机性的干扰)。第三种叫"位置互换",把两个沉没token与两个随机选出的非沉没token互换位置,但不删除任何token(对5个随机种子取平均)。
节点分类任务的结果相当有冲击力。以LLaGA在Cora数据集上的表现为例:基线准确率为88.40%,切除顶部两个沉没token后是88.00%,几乎没有变化;而切除随机非沉没token后,准确率平均跌至80.48%,降幅显著。同样的模式在Arxiv和PubMed上也成立。TEA-GLM的结果更为极端:在Arxiv上,切除沉没token完全没有影响准确率(都是56.67%),而切除非沉没token平均下降到44.40%。
位置互换实验也指向相同结论:把沉没token和非沉没token换个位置,性能几乎不变,说明沉没token并没有携带与其位置高度绑定的关键结构信息。
针对LLaGA,研究团队还额外测试了把所有沉没token移到序列最前面的情况(因为LLaGA的模板依赖位置来编码拓扑关系,这种移动相当于打乱了整个图的邻居结构)。结果依然没有显著的性能变化,进一步说明这些沉没token并非可靠的图结构摘要或信息路由节点。
**六、注意力与空洞:稀疏的图结构反而催生更强的沉没**
研究团队还发现了一个颇为精妙的关联现象,专门针对LLaGA展开分析。
LLaGA在构建图token序列时,如果某个节点的邻居数量少于预设的budget,会用[PAD]符号填充空缺。研究者想知道:当一个样本的图token序列中,真实节点内容越少(填充符越多),模型会怎么应对?
统计结果显示了一条非常清晰的负相关曲线:图token序列中非填充token的比例越低(也就是真实图内容越少),模型分配给顶部两个沉没token的平均注意力权重就越高;反之,当真实图token越丰富,这两个沉没token获得的注意力就越少。因为顶部两个沉没token始终是[PAD]占位符,这个现象可以解读为:当图结构稀疏、真实内容不足时,模型没有更好的信息来源,注意力便流向了无意义的填充位置。这是一种在信息匮乏时的无奈之举,而非主动的语义识别行为。
**七、切除之后,沉没会复活吗?**
一个自然的追问是:把原来的沉没token删掉之后,会不会有其他token"顶上来"承担沉没角色?如果沉没行为是模型的一种内在需求,那么换一批token可能也会再次出现类似现象。
研究者分别检测了切除所有沉没token前后的沉没位置分布。LLaGA中,切除后确实重新出现了满足沉没标准的token,但它们的位置分布发生了明显变化:不再集中在序列前端,而是分散到了整个图token序列的各个位置。这说明LLaGA的高激活行为是一种持续存在的系统特性,切除原有沉没token只是让这种行为重新分配,而非消除。
TEA-GLM则呈现完全相反的模式:切除原有沉没token之后,剩余图token的激活量整体下降,很少有token再次触发沉没判定阈值。这说明TEA-GLM的沉没行为集中在少数几个固定的早期位置,一旦这些位置被清除,整个图token块的激活模式就归于平静。但结合前面切除实验几乎不影响性能的结果,这种平静更可能意味着这些沉没token本来就是激活层面的人工产物,与实际的图语义处理关系不大。
**八、解码图token的内心独白:词汇透镜实验**
最后,研究团队做了一个最具直觉感的实验——用"logit lens"(词汇透镜)技术来"窥视"图token在模型内部每一层的想法。
这个技术的原理可以这样理解:大语言模型的最后一步是把内部状态转换成词汇表上的概率分布,然后选概率最高的词输出。词汇透镜的做法是,不等模型处理完全部层数,而是在每一个中间层就做这样的词汇解码,看看模型"此时此刻在想什么词"。这有点像在烹饪过程中每隔几分钟就尝一口锅里的汤,观察味道的演变。
研究者专门对TEA-GLM进行了这项分析,因为它的图token序列固定为5个,位置比较容易跨样本比较。他们记录了每个图token位置在每一层被解码为哪个词最频繁,以及这个词的平均概率是多少。
结果令人深思。在整个序列的大部分位置和大部分层次上,解码出来的主要是一些碎片化的词根、标点符号、或者毫无意义的字节序列,整体概率也偏低,说明这些图token的隐藏状态没有与词汇表产生清晰的对应关系。
然而,有一个稳定的规律浮现出来:在沉没token所在的位置g0和g1,从大约第20层开始,最频繁解码出的词是"paper"(论文)。这个现象在Cora、Arxiv和PubMed三个数据集上都有出现。TEA-GLM是在Arxiv上预训练的,然后零样本迁移到Cora和PubMed上,"paper"这个词的反复出现说明这两个沉没token位置保留的是来自预训练时引用网络领域的宽泛印象,而不是当前任务中具体图结构的信息。它们"记住"的不是"这个节点的邻居关系是什么",而只是"我们大概在讨论学术论文这个领域"。
这是对整个研究结论最直观的诠释:图沉没token在激活层面非常显眼,但它们内部携带的只是模糊的领域级别背景知识,而不是模型真正需要用来做分类和预测的拓扑结构信息。
**九、这一切说明了什么:图结构翻译还没做到位**
把所有发现串联起来,这项研究揭示的是一个清晰的系统性问题:当前的图语言模型在把图结构翻译成token序列之后,并没有让大语言模型真正"吃透"这些结构信息。模型内部确实出现了响应图token的活跃信号,但这些信号更像是模型在应对一种它不太熟悉的输入格式时产生的适应性噪声,而非真正的拓扑推理能力。
具体来说,图沉没token集中在序列前端、往往是填充符号、激活值异常高、却不是注意力的主要目标、也不是预测性能的关键载体、解码后只能读到模糊的领域词汇——这一系列现象共同描绘了一幅令人担忧的图景:激活层面的显著性与图语义的实际有用性之间存在严重脱节。
研究者把这种现象概括为"激活显著性与图语义效用的解耦"。通俗地说,就是"叫得最响的狗不一定是最管用的那只"。
这个发现对整个图语言模型领域有重要的方向性意义。它说明仅仅把图翻译成token扔给大语言模型是不够的,如何设计图token的构建方式、如何安排它们在序列中的位置、如何训练模型真正对齐图结构与文字语义——这三个方向都有大量工作尚待完成。研究者也坦率地指出,本研究只分析了LLaGA和TEA-GLM两种架构,其他设计方案可能展现出不同的行为模式,未来的研究需要更系统地探索整个设计空间。
说到底,这项研究做了一件很重要的事:它不是在夸图语言模型有多好,而是严肃地追问了一句"你真的懂图吗"。当模型回答了很多问题、在评测基准上表现优秀,我们往往会以为它已经理解了输入的结构信息。但弗吉尼亚大学与Capital One的研究团队用解剖刀打开了模型的内部,发现里面最显眼的那些信号,其实只是一些没什么用的"响动"。这不是对这些模型的否定,而是对整个领域的一次清醒提醒:评测分数不等于理解深度,外在的高性能背后可能隐藏着我们还没发现的短板。
对于关心AI技术走向的读者来说,这意味着下一代更可靠的图语言模型,需要从内部机制上做根本性改进,而不仅仅是堆更多数据或更大模型。感兴趣深入探索的读者,可以通过arXiv编号2606.03712找到这篇完整论文。
Q&A
Q1:图语言模型中的"图沉没token"是什么意思?
A:图沉没token是指在图语言模型处理图结构数据时,某些图token的隐藏状态在特定的少数维度上产生异常大的激活值,从内部来看非常"显眼"。研究发现这些token往往出现在序列前端,甚至常常是没有实际内容的填充符号,但它们并不是模型真正用来做预测的关键信息来源。
Q2:切除图沉没token为什么对模型性能影响不大?
A:因为图沉没token携带的主要是模糊的领域背景信号,而非具体的图拓扑结构信息。实验显示,删掉激活值最高的两个沉没token后,模型准确率几乎不变;反而随机删掉普通的非沉没token,性能下降更明显。这说明模型的实际预测能力依赖于那些看起来"不显眼"的普通图token。
Q3:词汇透镜实验在TEA-GLM上发现了什么?
A:词汇透镜实验发现,TEA-GLM的沉没token位置(g0和g1)在模型较深的层次(约第20层之后)频繁解码出"paper"这个词。由于该模型在Arxiv上预训练后零样本迁移到其他数据集,这说明沉没token保留的只是引用网络领域的宽泛印象,而非当前任务需要的具体图结构信息,印证了激活显著性与图语义效用之间存在根本性脱节。





京公网安备 11011402013531号