![]()
这项由香港大学与快手技术团队Kling联合完成的研究,以预印本形式于2026年5月29日发布,论文编号为arXiv:2605.31336。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。
有没有玩过这样的游戏——你在一片森林里转了一大圈,回到原点时,原来那棵大树不见了,地上的小屋变成了荒地,甚至天空的颜色都换了?这不是游戏设计师故意整你,而是AI生成的虚拟世界面临的真实困境:它根本记不住自己"一分钟前看过什么"。
这个问题听起来简单,却是当前AI视频生成领域最棘手的挑战之一。香港大学与快手Kling团队的研究者们为此专门研发了一套名为DecMem(解耦记忆)的系统,目标只有一个:让AI生成的游戏世界在整整一分钟内保持前后一致,你走过哪里、看到什么,回来时全都还在。
一、AI为什么会"忘事"——从短暂记忆到分钟级一致性的鸿沟
要理解这项研究的价值,先得明白AI生成视频时是怎么工作的。现在最先进的AI视频系统,本质上是一帧接一帧地"续写"画面——每生成新的一帧,它都要回头看看之前生成的内容,然后预测接下来应该画什么。这个过程很像一个作家在写连载小说,每次动笔前需要翻看之前的章节,保证前后逻辑一致。
然而问题就出在这个"翻看"的动作上。作家翻书很容易,但AI处理历史信息却要付出巨大的计算代价。随着生成的帧数越来越多,AI需要回顾的历史内容呈指数级增长,很快就会超出系统的承受能力。因此,绝大多数现有方法只好妥协:只让AI记住最近的几帧画面,更早的内容直接丢弃。这就好比要求作家每次只能翻看最近两页,写到第100章时,第1章的关键设定早已无从追溯。
这种"只看近处"的策略在短视频生成中还凑合,但一旦遇到需要"重访"场景的情况——比如玩家在游戏里转了一大圈回到起点——问题就彻底暴露了。AI根本不记得那个起点长什么样,于是随机生成一个完全不同的场景。玩家眼中,整个世界就像换了一张皮,前后毫无关联。
研究者们把这个问题称为"长时程不一致性",并把解决它作为整个研究的核心目标。他们希望做到的,是让AI在生成超过一分钟、超过800帧画面的过程中,始终能准确"记住"并还原之前见过的场景,哪怕那个场景已经在几百帧之前出现过。
二、前人的尝试:两条路都走不通
在这项研究之前,学界已经有人尝试解决长时记忆问题,大体分成两个流派,但都有明显的局限。
第一个流派可以称为"建地图派"。这些方法试图让AI在生成视频的同时,额外维护一张三维空间地图,把每一帧里的场景信息都"钉"到地图上。等到AI需要回忆某个场景时,就查一查地图,找到对应位置的信息。这个思路很直观,就像你在一个陌生城市游玩时随手画一张示意图,方便之后找路。问题是,画地图本身就需要额外的工具和计算资源,而且现有的三维估计技术并不完美——误差会随着时间慢慢积累,时间越长地图越不准,最终导致回忆的场景越来越失真。
第二个流派可以称为"看相机角度派"。这类方法不构建三维地图,而是根据摄像机的朝向和视野角度,从历史帧库里检索与当前视角最相关的帧,把它们作为上下文信息提供给AI参考。这个方法的代表是WorldMem系统。相比建地图,它更轻便,也避免了三维估计误差的积累。但它的核心缺陷在于:它只能以整张帧为单位进行检索,每次要么拿来一整帧,要么完全不用,无法精细地只取一帧里的某个角落的信息。更重要的是,它的检索规则是人工设计的启发式规则,无法通过训练自动优化——它永远只能"按规矩办事",而不能从经验中学习什么时候该重点关注哪些历史细节。
面对这两条路的局限,研究者们决定走第三条路:让AI自己学会在极细粒度上检索历史记忆,同时解决记忆越来越多时计算开销爆炸的问题。
三、注意力涣散——找到问题的真正根源
在提出解决方案之前,研究团队做了一项关键的诊断工作,这也是整篇论文中最具洞察力的部分之一。
他们做了这样一个实验:让AI在没有任何特殊记忆机制的情况下,对所有历史帧进行"全局注意力"——也就是每次生成新帧时,都能看到此前所有帧的内容,不做任何筛选或限制。按理说,这应该是最理想的记忆方式,信息最全、不遗漏任何细节。然而实验结果让人大跌眼镜:随着生成帧数增加,画面质量反而急剧崩塌,到第800帧附近时,生成的画面已经面目全非。
研究者们深入分析了AI在这个过程中的注意力分布,发现了一个关键现象,他们将其命名为"注意力涣散"。你可以这样理解这个现象:假设你在一个嘈杂的派对上,需要分辨某人说话的内容。当现场只有3个人时,你的注意力集中,听得清清楚楚;但当人数增加到300人,每个人都在说话,你的注意力就被摊薄到每个人身上,结果谁说的话都没听清。AI面临的正是同样的困境——历史帧越积越多,每一帧都分到一点点注意力权重,真正重要的关键帧反而被大量次要帧淹没,最终导致生成质量崩溃。
更具体地说,研究者通过可视化发现,当AI生成第810帧时,历史记忆中绝大多数帧都获得了微小但非零的注意力权重,形成一条长长的"尾巴"。这条注意力尾巴把原本应该集中在关键历史帧上的权重稀释得所剩无几,AI不知道该重点关注哪段历史,于是生成的内容开始偏离应有的轨迹。
面对这个问题,学界已有人提出了"训练无关的衰减策略"——简单粗暴地给距离当前帧越远的历史帧施加越大的衰减权重,让AI自动忽视遥远的历史。这种方法确实能缓解注意力涣散,但代价是把宝宝连同洗澡水一起倒掉——那些真正需要被记住的远程场景信息也一并被压制,长程一致性依然无从保证。研究者在实验中确认了这一点:衰减策略在中间阶段(大约300到700帧之间)的表现甚至比不做任何处理还要差。
由此,研究者得出了一个核心判断:解决注意力涣散问题,不能靠人工设计的规则,而需要一个能够自适应地抑制无关历史、同时保留关键历史的可学习架构。
四、DecMem的设计:两个相互配合的记忆模块
明确了问题的根源,研究者设计了DecMem系统,其核心是两个相互配合、各司其职的记忆模块。
第一个模块叫做"稀疏全局记忆"(SGM)。理解这个模块,可以把AI生成视频的过程类比为一位侦探在查阅大量案件档案。全局记忆意味着档案库里存放着所有历史帧的信息,但直接翻遍所有档案效率极低,还会被大量无关信息干扰。SGM的做法是:先把每一帧画面拆分成若干个"小块"(研究中每帧分成6块),然后对每个小块提取一个简化的摘要特征。当AI需要为当前帧的某个小区域寻找历史参考时,它先用这些摘要特征快速比对,找出历史中最相关的若干个小块(研究中默认选取80个),再对这些精选出的小块进行精细的注意力计算。
这个两阶段的设计非常精妙。第一阶段用摘要快速筛选,计算量极小;第二阶段只对精选内容做精细计算,计算量被控制在可接受的范围内。整个过程中,每次生成新帧所需的计算量不会随历史帧数增加而线性增长,彻底解决了计算效率问题。同时,由于检索是在小块级别进行的,而非整帧级别,AI可以只提取某帧里的特定角落信息,实现了真正的细粒度记忆检索。更关键的是,整个检索过程是端到端可训练的——AI可以从大量训练数据中自动学习什么样的历史小块对当前生成最有帮助,而不是依赖人工设计的规则。
第二个模块叫做"锚定局部记忆"(ALM)。这个模块的设计思路更直接:既然注意力涣散的核心是历史信息太多、信号太弱,那就给AI一个稳定的"注意力锚点"。ALM限制AI只对最近若干帧(研究中设置为8帧)进行滑动窗口注意力计算。这些最近的帧在时间上离当前帧最近,视觉和语义上的关联最强,注意力权重自然也最集中、最可靠。ALM不试图解决长程记忆问题,它的唯一职责是提供一个稳定的短程基准,防止AI在大量历史信息的干扰下"迷失方向"。
这两个模块通过一个可学习的"门控机制"融合在一起。最终的生成结果等于ALM的输出加上一个由当前帧特征动态调节的权重乘以SGM的输出。ALM负责提供稳定可靠的短程基准,SGM负责在全局历史中精准定位并提取关键的长程信息,两者结合,既保证了生成质量的稳定性,又实现了对长程历史的细粒度访问。
五、摄像机语言的融入:让AI理解"我在哪儿看什么"
除了核心的两个记忆模块,研究团队还为系统加入了一套多模态位置编码机制,解决了另一个重要问题:AI如何理解摄像机的位置和朝向,从而更准确地判断哪些历史帧与当前视角相关。
研究者将注意力计算中使用的位置编码分成三个独立的通道,分别编码三类不同的空间信息,每个通道占用72个特征维度中的24个。第一个通道编码摄像机的几何关系——当前摄像机和历史帧摄像机之间的相对位置和朝向差异,这让AI能够理解"现在看的方向和之前某帧的方向差了多少"。第二个通道编码画面内部的空间坐标——每个小块在画面中处于左上还是右下,保证AI在比对历史信息时考虑到空间位置的对应关系。第三个通道编码时间帧序号,让AI能够感知不同历史帧之间的时间远近。
这三类位置信息被分别注入注意力计算的不同维度,避免相互干扰。有了这套编码,AI在检索历史记忆时不再只是比较视觉内容的相似性,还能综合考虑摄像机视角、画面空间位置和时间距离,检索结果自然更加精准。
六、实验验证:数字和视觉都说话
为了验证DecMem的实际效果,研究团队在Minecraft游戏场景数据集上进行了系统性测试,与三个代表性的现有方法进行了对比:MineWorld(使用滑动窗口记忆)、Oasis(同样使用滑动窗口)、以及WorldMem(使用基于视野角度的帧检索)。
测试分为两个阶段:第一个阶段考察模型在"训练窗口内"的表现,也就是生成帧数不超过训练时见过的长度;第二个阶段考察模型在"训练窗口之外"的外推能力,也就是生成比训练时更长的视频序列。所有模型都以221帧真实视频作为记忆库初始化,然后继续生成120帧,测量生成内容与真实帧之间在像素级、感知级和分布级三个层面的差异。
在训练窗口内的测试中,DecMem在三个指标上全面领先:PSNR(峰值信噪比,衡量像素级还原准确度)达到30.08,而WorldMem为26.54、Oasis为24.13、MineWorld仅20.30;LPIPS(感知相似度,数值越低越好)为0.049,而WorldMem为0.080;FID(生成分布与真实分布的差距,数值越低越好)为9.89,而WorldMem为11.74。
在训练窗口之外的外推测试中,差距进一步拉大,这也是整个测试中最能体现各方法本质差异的部分。DecMem的PSNR仍保持在25.23,而WorldMem下滑到19.14,Oasis跌至13.42,MineWorld更是只剩14.61。FID方面,DecMem为16.27,WorldMem为38.47,Oasis高达63.89,MineWorld更是74.21。这些数字清晰地说明,当生成长度超过训练时的经验范围,其他方法都出现了明显的质量崩塌,而DecMem保持了相对稳健的性能。
除了客观指标,研究团队还组织了一项用户研究,邀请58位参与者从视觉质量、动作可控性、时空一致性三个维度对不同方法的生成视频进行偏好评分。DecMem在三个维度上均获得最高偏好率,分别为39.77%、37.81%和42.12%,与排名第二的WorldMem(19.31%、25.33%、24.16%)拉开了显著差距。
在推理效率方面,DecMem同样表现出色:每秒生成帧数达到3.65帧,而WorldMem仅为0.54帧,MineWorld为0.16帧,DecMem的速度是最接近竞争对手WorldMem的近7倍,更是比Oasis快了将近两倍。这一效率优势直接来源于SGM的稀疏块检索设计——计算量不随历史帧数增加而线性增长。
七、拆解实验:每个模块到底贡献了多少
为了验证两个核心模块各自的必要性,研究团队还进行了消融实验,分别测试去掉SGM或去掉ALM后系统性能的变化,并与朴素全局注意力及带衰减策略的全局注意力进行比较。
朴素全局注意力的问题已在前文分析过:虽然信息最全,但注意力涣散导致质量在长程生成中急剧崩塌,而且计算量随帧数线性增长,完全无法扩展到分钟级视频。带衰减策略的全局注意力在后期(700帧之后)有所改善,但在中期阶段(300到700帧之间)性能反而比纯全局注意力还差,说明它确实在有效地压制了部分有用的长程信息。
去掉SGM的版本(只保留ALM)在整个外推过程中表现最差,这印证了长程记忆检索对于一致性的不可或缺性——没有全局记忆,模型退化为一个只会看眼前几帧的局部系统,长程场景一致性完全无从保证。
去掉ALM的版本(只保留SGM)在早期阶段表现尚可,但在600帧之后开始急剧恶化,到后期FID和LPIPS指标甚至比朴素全局注意力还差。这个结果直接证明了注意力涣散问题的严重性:当SGM向注意力中引入大量来自全局历史的信息时,如果没有ALM的局部锚定来稳定注意力分布,涣散现象不但没有改善,反而更加严重。
只有完整的DecMem——SGM与ALM共同工作——才能在整个外推过程中保持稳定的生成质量,同时计算成本保持近乎恒定。这两个模块一个负责精准挖掘历史,一个负责稳定当下注意力,缺一不可。
研究团队还测试了SGM中检索块数量k(top-k)对性能的影响。从测试结果来看,随着k从20增加到80,各个评估阶段的性能都在稳步提升。但当k从80增加到100时,在长程外推阶段,PSNR和FID都出现了下滑。这说明并非检索越多越好——检索过多的历史块会稀释从ALM那里获得的稳定短程信号,削弱两个模块之间的互补性。研究团队最终将k设定为80,在长程记忆覆盖和短程稳定性之间取得最佳平衡。
此外,研究团队还探索了"动作无分类器引导"技术对生成质量的影响。这个技术的思路来自图像生成领域——训练时随机丢掉一部分动作条件,推理时用有无动作两种预测的加权组合来生成结果,从而更好地在动作控制强度和生成质量之间取得平衡。实验发现,加入这个技术后,在训练窗口内和短程外推阶段,像素级PSNR指标略有下降,但在长程外推阶段,生成分布与真实分布的差距(FID)从42.55大幅下降到25.27,说明这个技术以少量短程精度为代价,换来了显著的长程稳定性提升。
八、更大的舞台:工业级模型和多样化场景
为了进一步验证DecMem的竞争力,研究团队将其与两个工业界大规模世界模型进行了对比:Matrix-Game 2.0和WorldPlay。这两个模型都在多领域、大规模数据集上训练,具备更强的跨场景泛化能力,且都基于单张图片作为初始条件进行生成,而非视频片段初始化。
为了公平比较,研究团队也将DecMem的初始条件统一改为单张图片,在相同条件下进行用户研究。结果显示,DecMem在视觉质量(36.22%对比WorldPlay的35.04%和Matrix-Game 2.0的28.74%)和动作可控性(36.96%对比29.96%和33.07%)上与工业级模型持平甚至略有超出,而在时空一致性这个最核心的指标上,DecMem以39.53%的偏好率领先WorldPlay(34.39%)和Matrix-Game 2.0(26.07%),优势约为5个百分点。
研究团队还在另一个不同的数据集——Context-as-Memory数据集——上进行了泛化测试。这个数据集包含大量"重访场景",专门考察模型在多次回到同一地点时能否保持记忆的一致性。实验在岛屿、城市和化工厂三种不同风格的场景中进行,摄像机被驱动着反复向左和向右转动,模拟探索者来回穿越熟悉区域的过程。测试结果显示,DecMem在每次重访时都能准确还原之前观察到的建筑布局和局部细节,跨环境的稳健性得到了验证。
归根结底,这项研究做到了一件看似简单却极为困难的事:让AI生成的虚拟世界真正拥有了"记性"。不是那种只能记住最近几帧的短暂记忆,而是能在整整一分钟、数百帧的生成过程中,随时准确地回忆起之前见过的任何角落。
这件事的意义远不止游戏场景。能够长时程保持一致性的世界生成模型,可以成为训练自动驾驶系统的虚拟环境、具身智能机器人的练习场地、影视创作的可交互预可视化工具,乃至各类需要持续空间一致性的虚拟仿真平台。
当然,研究者也坦承了现阶段的局限:DecMem目前还无法做到实时生成,因为团队将重心放在了记忆精准度和外推泛化能力上,而非推理加速。未来他们计划探索将压缩的全局记忆与细粒度的对象级记忆结合起来,进一步提升长程一致性,并通过知识蒸馏等方法降低推理延迟,向实时世界生成的目标继续迈进。
换句话说,这次研究解决的是"记得住"的问题,下一步要解决的是"记得又快又准"的问题。一个真正意义上的、能长时间维持内在逻辑一贯性的AI世界模型,正在一步一步走向现实。如果你对这项研究的技术细节感兴趣,可以通过arXiv编号2605.31336找到完整论文,进一步探索其中每个模块的精确数学推导和完整实验数据。
Q&A
Q1:DecMem和WorldMem这类基于视野角度检索的方法相比,最大的区别是什么?
A:WorldMem是以整帧画面为最小单位进行检索,一次要么取来一整帧,要么完全不用,无法只提取某帧的局部细节,而且检索规则是人工设计的,无法通过训练自动优化。DecMem则把每帧拆分成若干小块进行细粒度检索,可以只取历史中某帧的某个角落信息,整个检索过程是端到端可训练的,AI能从训练数据中自动学会什么历史内容对当前生成最有帮助。
Q2:注意力涣散问题具体会造成什么样的视觉效果崩塌?
A:随着生成帧数增加,AI的注意力被大量历史帧摊薄,真正重要的关键历史帧获得的权重越来越低。视觉上的表现是场景逐渐失真、结构崩塌,比如原本应该还在的建筑物消失了,地形轮廓变形,场景整体开始"融化"成模糊无序的画面,到后期甚至出现完全无法识别的图像噪声。
Q3:DecMem在真实游戏或视频生成产品中能用上吗?
A:目前DecMem还不能做到实时生成,研究团队自己也指出这是当前的主要局限。它的生成速度约为每秒3.65帧,远低于实时游戏需要的每秒30帧以上。但在需要预先生成高质量、高一致性长视频的场景下——比如游戏关卡预览、影视可视化预制作、或者具身AI训练环境生成——已经具备实用价值。研究团队的下一步计划包括通过知识蒸馏等方法提升推理速度。





京公网安备 11011402013531号