新智元报道
中科大团队首先推出动态多模态知识注入基准MMEVOKE,解构遗忘机制,并在此基础上提出全新双阶段框架KORE。通过「知识树」自动增强与「零空间」协方差约束微调,为大模型终身学习开辟了全新路径。
当前主流大型多模态模型(LMMs)通过海量数据的预训练存储了丰富的静态知识,并在多模态理解与指令跟随上取得了巨大成功。然而,现实世界瞬息万变,大模型的既有知识面临「上线即过时」的严峻挑战,亟需具备高效吸收动态演变知识(Evolving Knowledge)的持续学习能力。
现有研究多局限于静态文本领域的知识编辑,忽视了动态多模态演变知识的注入,导致多模态持续学习领域存在两大核心缺陷:
评测基准缺失:缺乏能够高频、动态复制且覆盖面广的多模态演变知识评测基准;
遗忘机制不明:业界未能对模型在面对演变知识注入时的退化行为进行深度的定量解构。
针对这一关键空白,中国科学技术大学团队正式推出首个动态多模态知识注入基准MMEVOKE(含9,422个样本、横跨159个细分子类)。
论文链接:https://arxiv.org/pdf/2505.24449
代码链接:https://github.com/EVOKE-LMM/EVOKE
开源数据集:https://huggingface.co/collections/kailinjiang/mmevoke-iclr26
项目主页:https://evoke-lmm.github.io/
同时,为了让大型多模态模型(LMMs)能够实时跟上现实世界的发展,高效的知识注入(Knowledge Injection)已成为多模态大模型走向实用化的必由之路。然而,现有的知识注入方法在处理多模态持续学习时,普遍陷入了不可调和的「双重困境」:
知识适应性差(学不准):传统微调仅对孤立、离散的数据进行粗暴训练,导致模型对新知识缺乏跨模态泛化和多轮深度推理能力,容易产生「死记硬背」或严重幻觉;
灾难性遗忘严重(忘得快):参数在吸收新知识时的无序更新,会强力干扰并破坏大模型原有的通用多模态基本能力(如OCR、学科推理等),导致既有能力断崖式下跌。
为了打破这一不可调和的「死结」,团队进一步提出了以知识导向控制(Knowledge-Oriented Controls)为核心的全新双阶段优化微调框架 KORE,通过两大创新机制实现「知识适应」与「能力保留」的闭环协同。
论文链接:https://arxiv.org/pdf/2510.19316
代码链接:https://github.com/KORE-LMM/KORE
开源数据集:https://huggingface.co/collections/kailinjiang/koreicml26
项目主页:https://kore-lmm.github.io/
研究背景
随着现实世界的瞬息万变,大型多模态模型(LMMs)正面临着一个致命的痛点:预训练赋予了它们海量的静态知识,但这些知识一旦离线就会迅速过时。
图1 进化知识注入的样例展示
场景构建
传统的知识编辑评测多依赖人工静态收集,不仅耗时费力,更无法跟上现实世界「高频、动态」的演变步伐。为了实现自动化且高质量的动态知识捕获,团队设计了一套可高频自动复制的数据构建流水线:
图2 MMEVOKE的构建流程
最终构建出包含9,422个样本、横跨新闻与实体两大领域、159个细分行业子类的庞大基准。
图3 MMEVOKE的统计数据
团队在MMEVOKE上对4类知识注入方法(Supervised Fine-Tuning、Retrieval Augmented Generation、Commercial AI Web Search Engine、Sufficient Context)进行了动态知识注入大考,实验结果彻底颠覆了行业传统认知:
图4 现有知识注入方法在MMEVOKE上的评估
实验观察 1:现有主流方法在 MMEVOKE 上全线折戟: 团队深入评估了参数微调、多模态检索增强(RAG)以及商业 AI 搜索引擎等多类主流方法,结果发现其表现均不尽如人意。
实验观察 2:颠覆直觉!即便上下文充足,大模型依旧「睁眼说瞎话」: 行业通常认为,只要为大模型提供准确且充足的检索上下文,就能保证回答的正确性。但 MMEVOKE 的「充足上下文(Sufficient Context)」严苛实验打破了这一神话。
核心挑战 1:现有知识注入方法在 MMEVOKE 基准上表现极为匮乏,甚至在拥有充足的外部上下文时,大模型依然无法有效利用和正确推理动态演变知识。
为了对模型在面对演变知识注入时的退化行为进行深度的定量解构,团队在7个能力维度的12个benchmark上面进行了广泛的实验,得到以下结论:
图5 针对灾难性遗忘的评估
实验观察3:知识注入引发「副作用」,通用能力全面退化
在通过 Full-FT 和 LoRA 注入新知识后,大模型的通用多模态能力均出现显著下滑。
实验观察4:解构退化规律,惊现致命的「级联遗忘链」
无论是全参数微调还是 LoRA,模型各项能力的退化严重程度表现出高度一致的确定性排行:指令跟随(最严重)→多轮对话 →幻觉控制→综合评估 →OCR→多学科推理→数学推理(最轻微)
实验观察5:「听不懂人话」引发的多米诺骨牌效应
实验深入发现,各维度的能力退化并非孤立发生。由于 MME、SEEDBench2_Plus 等通用基准高度依赖模型对「是否/单选」等基础指令的严格遵守,「指令跟随能力」的率先崩溃会直接触发级联负面效应,像多米诺骨牌一样顺藤摸瓜地瘫痪模型的其他核心多模态基本功!
核心挑战 2:参数微调方法在注入新知识时,不可避免地会导致大模型通用能力的大幅退化,且这种退化在不同微调手段中表现出高度一致的严重性排行与致命的级联效应。
核心技术
为了解决「新知学不准,旧能保不住」这一难题,团队递进发力,提出了KORE,一个巧妙结合了知识导向的增强与约束的协同方法。
图6 知识适应和知识保留之间的平衡挑战以及KORE的性能概览
KORE的核心思想是双管齐下:
对外「做加法」:通过一种名为KORE-AUGMENTATION的自动化数据增强流水线,将孤立的知识点扩展为结构化、多层次的对话和指令数据,让模型「学得深、学得透」。
为了让模型真正「内化」新知识,而不是简单地「记忆」数据点,作者们提出了一种深刻且结构化的数据增强方法KORE-AUGMENTATION,它通过一个自动化的流水线,将每一个孤立的知识点(例如,一条关于某个新闻事件的图文信息),扩展成一个结构化的知识树。这棵树包含:
树干:基于原始知识生成的多轮对话数据,模拟了对该知识点的深入探讨和追问。
这个过程是完全自动化的,利用GPT-4o模型,将单一的知识点「发酵」成包含7.4万个样本的高质量、多形式的训练数据集(KORE-74K)。通过在这种结构化数据上进行训练,模型不再是死记硬背,而是学会了理解、推理和灵活运用新知识。
图7 KORE的两阶段优化概览
对内「做减法」:通过一种名为KORE-CONSTRAINT的知识约束机制,在微调时找到一个几乎不干扰旧知识的「安全」更新方向(即激活协方差矩阵的「零空间」),从而让模型「忘得少、忘得慢」。
LMM的预训练知识,可以被看作是其内部激活值在特定输入下的分布模式。这些模式可以被线性层激活的协方差矩阵 C所捕捉。KORE-CONSTRAINT的基本假设是:如果我们能让微调的更新方向,与这些代表旧知识的模式「正交」(即位于协方差矩阵C的零空间中),那么我们就能在最大程度上避免干扰旧知识。具体实现步骤如下所示:
收集旧知识的「指纹」:首先,用一组代表预训练知识的随机样本(论文中使用了OneVision数据集)输入LMM,并收集其线性层的激活值 X。
计算协方差矩阵:计算激活值的协方差矩阵 C = XXᵀ。这个矩阵C就相当于旧知识在这一层留下的「指纹」。
找到「安全」的更新空间:对协方差矩阵 C进行奇异值分解 (SVD):
SVD可以将C分解为一系列由奇异值 σᵢ和奇异向量 uᵢ定义的子空间。其中,那些对应于极小或零奇异值的子空间,就是零空间(Null Space)。对这个空间的扰动,对C的影响最小,因此可以被视为「安全」的更新区域。
初始化适配器 (Adapter):KORE选择LoRA作为PEFT方法。LoRA的更新可以表示为 ΔW = BA。为了让更新「安全」,关键是让矩阵A位于C的零空间中。
作者首先构建一个投影矩阵 P = ÛÛᵀ,其中Û是由对应最小奇异值的奇异向量组成的矩阵,P可以将任意权重投影到C的近似零空间中。然后,他们将原始权重W₀投影到这个零空间上,即W₀P。
对W₀P再次进行SVD,并用其分解结果来初始化LoRA的矩阵A和B:
最后,为了保证微调开始时模型的行为不变,从原始权重中减去初始的更新量:
约束微调:在微调过程中,只训练矩阵B,而保持矩阵A冻结。因为A被初始化在了零空间中,所以无论B如何变化,最终的更新ΔW = BA对旧知识协方差C的影响都将是最小的(BAC ≈ 0)。
通过这种方式,KORE-CONSTRAINT为知识注入找到了一个「绝缘」的更新通道,实现了在注入新知识的同时,对旧知识的强大保护。
性能亮点
作者在LLaVA-v1.5和Qwen2.5-VL等多个主流LMM上进行了广泛实验,将KORE与Full-FT、LoRA以及EWC、Replay等多种连续学习方法进行了对比。
主要结果
表1的结果清晰地展示了KORE的全面优势:
知识适应(新知识学习):在EVOKE基准上,KORE的性能远超所有基线。例如,在F1分数上,KORE (41.26) 比表现最好的基线Replay (17.98) 高出了一倍多。这证明了KORE-AUGMENTATION在促进新知识内化方面的巨大成功。
知识保留(旧知识遗忘):在评估7大类旧能力的12个基准上,KORE的平均分(40.00)同样名列前茅,显著优于LoRA(33.47)和EWC(33.47)等方法,仅略低于需要存储大量旧数据的Replay方法(43.00)。这证明了KORE-CONSTRAINT在防止灾难性遗忘方面的有效性。
综合表现:综合来看,KORE在「适应」和「保留」两个维度上取得了最佳的平衡,平均分(37.98)和HARS (82.81)显著高于所有基线。
图8 细粒度知识类型性能对比图
在更细粒度的20种不同类型知识的注入任务上,KORE同样展现了全面的领先优势,证明其并非只在特定类型的知识上有效。
特定知识保留的灵活性
KORE的一个强大之处在于其可定制性。如果用户希望特别保护某一类旧知识(例如,数学推理能力),他们可以在构建协方差矩阵C时,只使用该类任务的数据。
实验表明,当施加特定约束时(如KORE_MME, KORE_OCRVQA),模型在该特定任务上的保留能力会得到进一步增强,同时对新知识的学习能力影响甚微。这为根据不同应用场景进行定制化的知识管理提供了可能。
在不同模型尺寸和结构上的泛化性
无论是在更大的13B模型上,还是在架构不同的Qwen2.5-VL模型上,KORE都稳定地展现出超越基线的性能。这证明了KORE方法的普适性,它并非针对某一特定模型或规模的「特调」方案。
消融实验
消融实验进一步验证了KORE两个核心组件的不可或缺性:
去掉KORE-AUGMENTATION:新知识学习能力(K.A)急剧下降。
去掉KORE-CONSTRAINT:旧知识保留能力(K.R)显著受损。
这证明了KORE的成功正是源于其「增强」与「约束」的协同作用。
图9 不同rank大小对性能的影响
在探讨模型秩(Rank)大小对性能的影响时,实验展现了 KORE 极强的参数利用率:
性能随 Rank 稳步攀升:如图7所示,随着 Rank 值(即可训练参数)的增加,KORE 在各项评估指标上的表现均呈现出清晰的上升趋势。
更少参数,更好性能:最令人瞩目的是,即便将 Rank 限制在 64,KORE 仅凭不到 Replay(经验重放)策略1/3的参数量,就在综合能力Avg)和 HARS 核心指标上实现了超越!真正做到了「降本增效」,为大模型低成本持续学习提供了极佳的范式。
总结
研究团队针对大型多模态模型(LMMs)在动态知识注入时面临的「学不准」与「忘得快」双重困境,提出了一套包含评测基准与底层微调架构的完整闭环解决方案。
首先,团队构建了首个动态多模态演变知识评测基准 MMEVOKE,首次科学解构了新知识注入引发模型基础能力全面降级的「级联遗忘效应」。
在此基础上,团队推出双阶段框架 KORE:通过多模态「知识树」增强提升新知识内化,并结合「零空间约束」将旧能力锁定,从几何层面切断参数干扰。KORE 以极低参数开销完美平衡了「新知吸收」与「旧能保留」。未来,团队将持续攻坚灾难性遗忘的底层机制,为下一代具备「终身学习」能力的大模型奠定技术底座。
参考资料:
https://arxiv.org/pdf/2505.24449
编辑:LRST
秒追ASI





京公网安备 11011402013531号