当前位置: 首页 » 资讯 » 科技头条 » 正文

KAIST与Naver联合研究团队如何让AI游戏世界"记住"你去过的地方

IP属地 中国·北京 科技行者 时间:2026-05-28 22:15:27


这项由韩国科学技术院(KAIST AI)与Naver AI Lab联合完成的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.22718。感兴趣的读者可通过该编号在arXiv平台检索完整论文。

你有没有玩过这样一款游戏——你在一个房间里探索了一番,然后走开去别的地方转了一圈,再回来的时候,房间里的东西全变了,或者整个房间看起来都不一样了?这种体验会让人感觉整个游戏世界是"假"的,随时都在变,而不是一个真正存在、等待你探索的完整空间。

对于由人工智能实时生成的互动虚拟世界来说,这恰恰是一个悬而未决的核心难题。AI生成的游戏世界、虚拟场景乃至机器人训练环境,都依赖一种叫做"自回归视频扩散模型"的技术来实时生成画面。这种技术就像一位即兴表演的画家,每次根据你的动作现场作画,速度极快,但也正因为它是"即兴"的,它很难记住几分钟前画过什么。当你原路返回时,这位画家已经忘了之前的作品,只好重新画一遍——结果当然和原来不一样。

KAIST与Naver的研究团队提出了一套名为WorldKV的框架,专门解决这个"AI世界失忆症"问题,而且不需要对原有AI模型做任何重新训练。这项研究的核心发现和方法,值得每一个关注AI、游戏或虚拟现实的人细细了解。

一、AI画家的记忆危机:为什么虚拟世界会"忘事"

要理解这个问题,先得了解这类AI系统是怎么工作的。现代实时互动世界模型的工作方式,有点像一个连载漫画作者,每次根据读者的反应(玩家的操作)画下一格,然后把之前画过的内容存在一个"草稿本"里,方便随时翻阅。这个草稿本在AI领域被称为"KV缓存"——KV是"键值"(Key-Value)的缩写,可以理解为AI在处理每一帧画面时留下的"印象记录"。

问题在于,这个草稿本的容量是有限的。实时生成要求AI每秒处理好几帧画面,每一帧都会往草稿本里添加新内容。时间一长,草稿本就满了。满了怎么办?系统只能把最老的记录擦掉,腾出空间。这就是所谓的"滑动窗口推理"——AI只能看到最近一段时间内的记录,更早的内容被永久抹去。

这种做法保住了实时运行的速度,但代价是彻底丢失了长期记忆。当玩家在AI生成的森林里向右转、向左转,最后再次向右转时,AI已经忘了第一次向右时生成的那片树林长什么样,只好重新生成一片——树的种类、光线、布局全都变了。这种"漂移"和"幻觉"让AI生成的世界显得飘忽不定,无法成为真正意义上的"持久世界"。

另一个极端做法是完全不擦除,让草稿本无限增长。研究团队称之为"全KV缓存注意力"。这样做理论上能保住所有记忆,但代价同样惊人。在LingBot-World-Fast这个14B参数的大模型上,每帧画面会产生大约1560个"记录单元",一分钟的运行就能积累几十万个单元。草稿本很快就会占满整个GPU显存,甚至超过最高端显卡的容量上限(比如B200显卡的180GB)。更要命的是,草稿本越大,AI每次"翻阅"时花费的时间就越长,导致生成速度从最初的每秒8.87帧急剧降至每秒3.61帧,早已无法维持实时运行的要求。

研究团队在实验中还发现了一件有趣的事:Matrix-Game-2.0这个模型是专门在短片段上训练的,原本只有6帧的"记忆窗口",但当研究者在推理时强行让它看到全部历史记录时,这个模型居然能够成功重现之前生成的场景!这说明AI对"记忆"的潜力,其实已经藏在它的参数里了——问题只是如何在不超载的前提下,让它用上这份记忆。

二、借书馆的智慧:WorldKV如何重新设计记忆系统

既然草稿本不能无限大,也不能随意抹去,那么最合理的解决思路是什么?研究团队的答案是:建一个图书馆。

在图书馆里,你不需要把所有书都摆在桌上,只需要在需要某本书的时候去书架上取。平时这些书静静地待在书架上,不占用你的工作台;一旦你需要查阅某个地方的记录,图书馆员工帮你快速找出最相关的几本书送到你手边。

WorldKV就是按照这个逻辑设计的,它由两个互相配合的部件组成:**世界检索(World Retrieval)**和**世界压缩(World Compression)**。

世界检索负责解决"什么时候取哪本书"的问题。当AI的草稿本(活动窗口)满了、需要淘汰最旧的记录时,WorldKV不是把它们直接删掉,而是把它们搬到"书架"上——也就是GPU或CPU的独立内存区域里存起来,并且给每一份记录贴上一个"位置标签",记录它被生成时的摄像机姿态或玩家操作方向。

之后,当玩家的视角开始靠近某个之前探索过的区域时,系统会根据当前的摄像机朝向,在书架上查找"位置标签"最接近的那几份记录,把它们从书架上取出来,暂时放回AI的活动窗口里。这样,AI就能"回忆起"那个方向的场景长什么样,并据此生成一致的画面。整个过程不需要重新运行AI来"重建"记忆,而是直接把当时生成的原始记录取回来复用——效率极高,也不需要改动模型本身的任何参数。

研究团队还特别分析了AI在处理不同动作时的"注意力地图"——也就是AI在生成当前画面时,对历史上哪些记录投入了最多的"关注"。他们以11个连续动作片段为例,让AI沿"右转→停止→左转→停止→右转"的轨迹运动,并观察每一步的注意力分布。结果非常清晰:当摄像机向左转时,AI的注意力自然地集中到了之前向右看时生成的那些记录上,因为那些记录描述的方向与当前相反,正好对应了"回看"的感觉;当摄像机再次朝向初始视角时,AI会重点关注最开始的那几帧;当摄像机第二次向右转时,注意力又跑到了之前向左转时的那批记录上。这个规律在Matrix-Game-2.0和LingBot-World-Fast两个完全不同规模的模型上都清晰呈现,说明"按视角方向检索历史记录"是一个普遍有效的策略。

这个设计也是模块化的,检索策略并不局限于摄像机朝向。研究团队同时测试了另一种方式:直接计算当前AI正在处理的"查询向量"与书架上各份记录之间的相关性得分,取得分最高的几份记录。这种"基于注意力的检索"不依赖任何外部坐标信息,在某些场景下也能很好地工作,只是整体表现略逊于摄像机方向检索。

三、压缩师的秘诀:如何把书的厚度减半又不损失内容

解决了"取什么书"的问题,还有另一个麻烦:书架本身也是有限的。在LingBot-World-Fast模型上,每3帧画面产生的记录,在所有Transformer层加在一起,大约占用3.4GB的存储空间。以这个速度,一分钟的运行会产生超过200GB的历史记录,远远超过任何现有GPU的存储上限。

世界压缩就是为了解决这个问题而设计的。它的核心思路来自一个朴素的观察:视频中相邻的几帧画面,内容往往极为相似。如果摄像机在缓慢向右转,那么第1帧、第2帧、第3帧的大部分画面是重叠的,只有边缘处有少量新内容出现。把这三帧画面的记录全部存下来,实际上大量信息是重复的。

研究团队把每个3帧片段的第1帧称为"锚点帧",然后计算第2帧和第3帧中每一个记录单元与锚点帧记录单元之间的"余弦相似度"——这是一种衡量两个向量"长得有多像"的数学工具,可以理解为"内容重叠度"。相似度越高,说明这个单元与锚点帧高度重叠,属于冗余信息;相似度越低,说明这个单元包含了锚点帧没有的新内容,比如摄像机转过去后才露出来的那片新区域。

世界压缩的做法是:把锚点帧的全部记录保留,同时只保留第2帧和第3帧中相似度最低的那25%的记录单元,丢掉其余75%的高度重叠内容。这样一来,原本需要存3帧的记录,现在只需要存约1.5帧的等量数据——体积直接减半,书架能放的书也从原来的数量翻了一倍。

这种压缩不是把书的某一章直接撕掉,而是把书里重复的段落删掉,只留下真正独特的内容。研究团队在论文中展示了大量可视化结果,清楚呈现了哪些位置的记录单元被保留下来:在摄像机向左或向右转的情况下,被保留的单元集中在画面边缘新出现的区域;在摄像机向后退的情况下,不仅新露出的场景边缘被保留,连画面中正在旋转的风车叶片也因为其动态变化而被标记为"低相似度"从而得以保存。这说明这种基于键值相似度的压缩方式,能够自动识别视频中的动态变化区域,而不仅仅是几何上的新内容。

压缩在每个片段被"搬上书架"时只执行一次,且对每一层Transformer网络独立操作——因为不同层次的"印象"重点不同,需要分别处理。当某份压缩记录被从书架取出复用时,每一层都只看属于自己的那批被保留的单元,不会混淆。

四、活动窗口的精细分区:一张有条不紊的工作台

WorldKV对AI草稿本(活动注意力窗口)的组织方式同样值得详细介绍。研究团队把总共18帧的活动窗口划分成四个功能明确的区域,就像一张被精心规划的工作台。

最前端的3帧是"锚点区",存放的是整个场景最开始的那批记录。这些记录代表了整个虚拟世界的"基准外观",就像一张地图上的出发点,帮助AI始终知道这个世界最初长什么样。紧跟在后的9帧是"检索区",这里存放的是从书架上取回来的历史记录——根据当前视角最相关的那几份。再往后3帧是"近期区",存放的是刚刚生成的最近几帧画面,确保AI对当前场景有连续感知。最后3帧是"去噪区",也就是AI当前正在生成的新一批画面。

这四个区域各司其职:锚点区负责长期稳定性,检索区负责精准回忆,近期区负责短期连续性,去噪区负责当前生成。整个设计让AI在任何时刻都能同时看到"世界的起点"、"当前最相关的历史记录"和"最近发生了什么",从而生成既连贯又一致的新画面。

五、实验室里的赛跑:WorldKV与各路方案的正面较量

为了严格评估WorldKV的效果,研究团队构建了一个专门的测评基准,包含60个场景与运动轨迹配对,覆盖室内、室外、城市、自然等多种视觉环境。每个场景都设计了包含至少一次"回头"动作的长时间轨迹——玩家会探索一个区域,离开,然后返回原地,这样就能直接比较AI"第二次来到同一地点"时生成的画面与"第一次来到时"生成的画面有多相似。评估指标包括PSNR(信噪比,数值越高代表画面越接近参考)、SSIM(结构相似度,越高越好)、LPIPS(感知相似度,越低越好)和FID(分布距离,越低代表整体风格越一致)。

在LingBot-World-Fast这个14B大模型上,原生的全KV缓存注意力方案本已提供了不错的记忆效果,但运行速度只有每秒2.36帧,远低于实时要求。WorldKV在保持与全KV缓存相近的记忆质量(LPIPS从0.441微升至0.455,PSNR从15.901微降至15.660)的同时,把速度提升至每秒4.78帧,接近原生滑动窗口的5.05帧,基本实现了实时运行。滑动窗口方案由于没有记忆,各项指标都大幅落后(LPIPS高达0.581,PSNR只有12.184)。

在Matrix-Game-2.0这个专门在短片段上训练的1.3B小模型上,结果更加令人意外。全KV缓存方案不仅速度慢(每秒7.82帧),记忆质量还比WorldKV差——全KV的LPIPS为0.529,PSNR为13.748,而WorldKV分别达到0.462和14.101,反而更好,且速度高达每秒16.25帧。原因在于,这个模型是在短序列上训练的,当它被迫处理越来越长的历史记录时,那些来自"训练分布之外"的远古记录反而会干扰它,产生累积误差。WorldKV通过只检索相关记录、剔除不相关记录,帮助模型专注于真正有用的历史信息,反而得到了更好的效果。

研究团队还与两个专门为长期记忆训练过的对比模型进行了比较:WorldPlay(8B参数)和Yume-1.5(5B参数)。这两个模型都经过了专门的记忆模块训练,属于"有备而来"的选手。结果显示,LingBot-World-Fast加上WorldKV在LPIPS、PSNR和FID三项指标上均超过了这两个对比模型,SSIM基本相当,且运行速度更快——而这一切都是在不做任何训练的前提下实现的。Matrix-Game-2.0加上WorldKV则与两个对比模型基本持平或略有差距。

六、细节决定成败:压缩比如何影响记忆质量

研究团队还对世界压缩的参数设置做了系统的消融实验,也就是通过改变某一个参数、观察结果变化来理解每个设计选择的价值。

第一组实验调整的是"片段内压缩比",也就是每个3帧片段最终保留多少帧等量的数据。从只保留锚点帧(相当于保留1.0帧),到完全不压缩(保留3.0帧),研究者测试了多个中间值。结果显示,只保留锚点帧的效果最差,说明非锚点帧中确实存在锚点帧没有的独特信息,不能全部丢弃。保留1.5帧(即本文默认设置)表现良好,保留更多数据带来的收益边际递减。这说明75%的非锚点内容确实是冗余的,压缩方案合理。

第二组实验调整的是"片段间覆盖范围",也就是在同等的注意力窗口预算下,到底是存更多压缩过的片段,还是存更少但完整的片段。结果表明,将6个片段压缩后放入原本只能容纳3个完整片段的空间,比直接用3个完整片段效果更好——历史覆盖范围更广,对记忆质量的贡献超过了压缩带来的轻微信息损失。但把9个片段压缩到同等空间时,效果反而下降,说明过度压缩(每个片段只剩锚点帧)会损失太多独特信息。

另一组实验专门测试了检索片段数量与记忆质量的关系。随着检索片段数量从1增加到7,LPIPS、PSNR和SSIM在两个模型上总体呈改善趋势,证实了更广泛的历史覆盖对记忆有益。这也从另一个角度支持了世界压缩的设计初衷:压缩不只是为了省空间,更是为了让有限的注意力窗口能塞进更多的历史片段,从而提升记忆质量。

七、通用性验证:在第三个模型上的"不请自来"测试

为了进一步证明WorldKV不是只为特定模型"定制"的,研究团队还把它应用到了Inspatio-World这个完全不同的模型上——这是一个将输入视频转换为新视角序列的4D世界模型,原本对新生成内容没有任何长期记忆机制。实验结果显示,加上WorldKV之后,Inspatio-World也能在多次回头时保持场景的一致性,全程无需任何微调。这证明了WorldKV作为一个训练无关框架的普适性。

八、当前局限与未来方向:诚实面对还未解决的问题

研究团队在论文中坦承了WorldKV目前的几个局限。首先,WorldKV是一个推理时的记忆管理方法,它的上限受制于底层世界模型的生成质量。如果AI本身在超长序列上会产生视觉漂移,WorldKV无法从根本上消除这种问题,只能尽量减少不必要的记忆干扰。其次,CPU离线存储虽然能把VRAM占用压到很低,但每次从CPU读取数据送到GPU时的传输延迟,目前还会破坏实时生成的流畅度——如何加速这个传输过程是一个重要的未来研究方向,解决之后才能真正实现"无限时长、有界显存"的实时世界生成。此外,检索算法本身还有很大的改进空间,研究团队目前主要依赖摄像机姿态相似度,未来可以探索更复杂的语义匹配或注意力预测方法。

说到底,WorldKV做的事情,就是给一位能力出色但记性欠佳的AI画家,配备了一个精心整理的专用图书馆,并且雇了一位懂得在恰当时机取出恰当档案的图书管理员。画家的绘画能力本身没有变,但现在它能"翻阅"到真正需要的参考资料,而不是被一堆无关或重复的旧稿子淹没。

这对普通用户意味着什么?或许在不久的将来,AI驱动的互动游戏或虚拟旅行应用,能够在不需要超级计算机的情况下,真正实现"你去过的地方,回来还是原来的样子"——无论是那条街角的咖啡馆,还是森林深处的石头小屋。这种持久性不仅仅是视觉上的舒适感,更是建立真实沉浸感的基础,也是让AI世界模型真正走向实用的关键一步。

对AI在游戏、机器人训练或虚拟现实领域的应用感兴趣的读者,可以进一步思考:当AI生成的世界拥有了可靠的长期记忆,它能支撑什么样的新型交互体验?记忆本身是否会成为AI世界模型的"智识"基础,让它的反应不再只是局部刺激的即时响应,而是基于对整个世界历史的真正理解?这些问题,值得随着这一领域的发展持续关注。有兴趣深入了解技术细节的读者,可通过论文编号arXiv:2605.22718查阅完整原文。

Q&A

Q1:WorldKV需要对原来的AI世界模型重新训练吗?

A:不需要。WorldKV是一个完全训练无关的推理时框架,直接运行在现有模型之上,不修改任何模型参数,也不需要微调或蒸馏,可以直接插入到基于KV缓存的自回归世界模型中使用。

Q2:世界压缩会不会损失重要的画面细节?

A:研究显示,将每个3帧片段压缩至约1.5帧等量数据时,几乎不损失视觉质量,有时甚至优于未压缩方案。这是因为压缩保留了最具独特性的内容,剔除了大量冗余的重叠信息,让注意力窗口能容纳更多历史片段,反而提升了整体记忆覆盖范围。

Q3:WorldKV在小模型和大模型上效果一样好吗?

A:在14B的LingBot-World-Fast上,WorldKV接近全KV缓存的记忆质量同时速度提升约2倍;在1.3B的Matrix-Game-2.0上,WorldKV甚至超过了全KV缓存的记忆质量,因为该小模型在超出训练分布的长序列上容易产生误差累积,WorldKV的选择性检索有效避免了这一问题。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。