KAIST与Naver联合研究团队如何让AI游戏世界"记住"你去过的地方

IP属地中国·北京 科技行者 时间：2026-05-28 22:15:27

这项由韩国科学技术院（KAIST AI）与Naver AI Lab联合完成的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.22718。感兴趣的读者可通过该编号在arXiv平台检索完整论文。
你有没有玩过这样一款游戏——你在一个房间里探索了一番，然后走开去别的地方转了一圈，再回来的时候，房间里的东西全变了，或者整个房间看起来都不一样了？这种体验会让人感觉整个游戏世界是"假"的，随时都在变，而不是一个真正存在、等待你探索的完整空间。
对于由人工智能实时生成的互动虚拟世界来说，这恰恰是一个悬而未决的核心难题。AI生成的游戏世界、虚拟场景乃至机器人训练环境，都依赖一种叫做"自回归视频扩散模型"的技术来实时生成画面。这种技术就像一位即兴表演的画家，每次根据你的动作现场作画，速度极快，但也正因为它是"即兴"的，它很难记住几分钟前画过什么。当你原路返回时，这位画家已经忘了之前的作品，只好重新画一遍——结果当然和原来不一样。
KAIST与Naver的研究团队提出了一套名为WorldKV的框架，专门解决这个"AI世界失忆症"问题，而且不需要对原有AI模型做任何重新训练。这项研究的核心发现和方法，值得每一个关注AI、游戏或虚拟现实的人细细了解。
一、AI画家的记忆危机：为什么虚拟世界会"忘事"
要理解这个问题，先得了解这类AI系统是怎么工作的。现代实时互动世界模型的工作方式，有点像一个连载漫画作者，每次根据读者的反应（玩家的操作）画下一格，然后把之前画过的内容存在一个"草稿本"里，方便随时翻阅。这个草稿本在AI领域被称为"KV缓存"——KV是"键值"（Key-Value）的缩写，可以理解为AI在处理每一帧画面时留下的"印象记录"。
问题在于，这个草稿本的容量是有限的。实时生成要求AI每秒处理好几帧画面，每一帧都会往草稿本里添加新内容。时间一长，草稿本就满了。满了怎么办？系统只能把最老的记录擦掉，腾出空间。这就是所谓的"滑动窗口推理"——AI只能看到最近一段时间内的记录，更早的内容被永久抹去。
这种做法保住了实时运行的速度，但代价是彻底丢失了长期记忆。当玩家在AI生成的森林里向右转、向左转，最后再次向右转时，AI已经忘了第一次向右时生成的那片树林长什么样，只好重新生成一片——树的种类、光线、布局全都变了。这种"漂移"和"幻觉"让AI生成的世界显得飘忽不定，无法成为真正意义上的"持久世界"。
另一个极端做法是完全不擦除，让草稿本无限增长。研究团队称之为"全KV缓存注意力"。这样做理论上能保住所有记忆，但代价同样惊人。在LingBot-World-Fast这个14B参数的大模型上，每帧画面会产生大约1560个"记录单元"，一分钟的运行就能积累几十万个单元。草稿本很快就会占满整个GPU显存，甚至超过最高端显卡的容量上限（比如B200显卡的180GB）。更要命的是，草稿本越大，AI每次"翻阅"时花费的时间就越长，导致生成速度从最初的每秒8.87帧急剧降至每秒3.61帧，早已无法维持实时运行的要求。
研究团队在实验中还发现了一件有趣的事：Matrix-Game-2.0这个模型是专门在短片段上训练的，原本只有6帧的"记忆窗口"，但当研究者在推理时强行让它看到全部历史记录时，这个模型居然能够成功重现之前生成的场景！这说明AI对"记忆"的潜力，其实已经藏在它的参数里了——问题只是如何在不超载的前提下，让它用上这份记忆。
二、借书馆的智慧：WorldKV如何重新设计记忆系统
既然草稿本不能无限大，也不能随意抹去，那么最合理的解决思路是什么？研究团队的答案是：建一个图书馆。
在图书馆里，你不需要把所有书都摆在桌上，只需要在需要某本书的时候去书架上取。平时这些书静静地待在书架上，不占用你的工作台；一旦你需要查阅某个地方的记录，图书馆员工帮你快速找出最相关的几本书送到你手边。
WorldKV就是按照这个逻辑设计的，它由两个互相配合的部件组成：**世界检索（World Retrieval）**和**世界压缩（World Compression）**。
世界检索负责解决"什么时候取哪本书"的问题。当AI的草稿本（活动窗口）满了、需要淘汰最旧的记录时，WorldKV不是把它们直接删掉，而是把它们搬到"书架"上——也就是GPU或CPU的独立内存区域里存起来，并且给每一份记录贴上一个"位置标签"，记录它被生成时的摄像机姿态或玩家操作方向。
之后，当玩家的视角开始靠近某个之前探索过的区域时，系统会根据当前的摄像机朝向，在书架上查找"位置标签"最接近的那几份记录，把它们从书架上取出来，暂时放回AI的活动窗口里。这样，AI就能"回忆起"那个方向的场景长什么样，并据此生成一致的画面。整个过程不需要重新运行AI来"重建"记忆，而是直接把当时生成的原始记录取回来复用——效率极高，也不需要改动模型本身的任何参数。
研究团队还特别分析了AI在处理不同动作时的"注意力地图"——也就是AI在生成当前画面时，对历史上哪些记录投入了最多的"关注"。他们以11个连续动作片段为例，让AI沿"右转→停止→左转→停止→右转"的轨迹运动，并观察每一步的注意力分布。结果非常清晰：当摄像机向左转时，AI的注意力自然地集中到了之前向右看时生成的那些记录上，因为那些记录描述的方向与当前相反，正好对应了"回看"的感觉；当摄像机再次朝向初始视角时，AI会重点关注最开始的那几帧；当摄像机第二次向右转时，注意力又跑到了之前向左转时的那批记录上。这个规律在Matrix-Game-2.0和LingBot-World-Fast两个完全不同规模的模型上都清晰呈现，说明"按视角方向检索历史记录"是一个普遍有效的策略。
这个设计也是模块化的，检索策略并不局限于摄像机朝向。研究团队同时测试了另一种方式：直接计算当前AI正在处理的"查询向量"与书架上各份记录之间的相关性得分，取得分最高的几份记录。这种"基于注意力的检索"不依赖任何外部坐标信息，在某些场景下也能很好地工作，只是整体表现略逊于摄像机方向检索。
三、压缩师的秘诀：如何把书的厚度减半又不损失内容
解决了"取什么书"的问题，还有另一个麻烦：书架本身也是有限的。在LingBot-World-Fast模型上，每3帧画面产生的记录，在所有Transformer层加在一起，大约占用3.4GB的存储空间。以这个速度，一分钟的运行会产生超过200GB的历史记录，远远超过任何现有GPU的存储上限。
世界压缩就是为了解决这个问题而设计的。它的核心思路来自一个朴素的观察：视频中相邻的几帧画面，内容往往极为相似。如果摄像机在缓慢向右转，那么第1帧、第2帧、第3帧的大部分画面是重叠的，只有边缘处有少量新内容出现。把这三帧画面的记录全部存下来，实际上大量信息是重复的。
研究团队把每个3帧片段的第1帧称为"锚点帧"，然后计算第2帧和第3帧中每一个记录单元与锚点帧记录单元之间的"余弦相似度"——这是一种衡量两个向量"长得有多像"的数学工具，可以理解为"内容重叠度"。相似度越高，说明这个单元与锚点帧高度重叠，属于冗余信息；相似度越低，说明这个单元包含了锚点帧没有的新内容，比如摄像机转过去后才露出来的那片新区域。
世界压缩的做法是：把锚点帧的全部记录保留，同时只保留第2帧和第3帧中相似度最低的那25%的记录单元，丢掉其余75%的高度重叠内容。这样一来，原本需要存3帧的记录，现在只需要存约1.5帧的等量数据——体积直接减半，书架能放的书也从原来的数量翻了一倍。
这种压缩不是把书的某一章直接撕掉，而是把书里重复的段落删掉，只留下真正独特的内容。研究团队在论文中展示了大量可视化结果，清楚呈现了哪些位置的记录单元被保留下来：在摄像机向左或向右转的情况下，被保留的单元集中在画面边缘新出现的区域；在摄像机向后退的情况下，不仅新露出的场景边缘被保留，连画面中正在旋转的风车叶片也因为其动态变化而被标记为"低相似度"从而得以保存。这说明这种基于键值相似度的压缩方式，能够自动识别视频中的动态变化区域，而不仅仅是几何上的新内容。
压缩在每个片段被"搬上书架"时只执行一次，且对每一层Transformer网络独立操作——因为不同层次的"印象"重点不同，需要分别处理。当某份压缩记录被从书架取出复用时，每一层都只看属于自己的那批被保留的单元，不会混淆。
四、活动窗口的精细分区：一张有条不紊的工作台
WorldKV对AI草稿本（活动注意力窗口）的组织方式同样值得详细介绍。研究团队把总共18帧的活动窗口划分成四个功能明确的区域，就像一张被精心规划的工作台。
最前端的3帧是"锚点区"，存放的是整个场景最开始的那批记录。这些记录代表了整个虚拟世界的"基准外观"，就像一张地图上的出发点，帮助AI始终知道这个世界最初长什么样。紧跟在后的9帧是"检索区"，这里存放的是从书架上取回来的历史记录——根据当前视角最相关的那几份。再往后3帧是"近期区"，存放的是刚刚生成的最近几帧画面，确保AI对当前场景有连续感知。最后3帧是"去噪区"，也就是AI当前正在生成的新一批画面。
这四个区域各司其职：锚点区负责长期稳定性，检索区负责精准回忆，近期区负责短期连续性，去噪区负责当前生成。整个设计让AI在任何时刻都能同时看到"世界的起点"、"当前最相关的历史记录"和"最近发生了什么"，从而生成既连贯又一致的新画面。
五、实验室里的赛跑：WorldKV与各路方案的正面较量
为了严格评估WorldKV的效果，研究团队构建了一个专门的测评基准，包含60个场景与运动轨迹配对，覆盖室内、室外、城市、自然等多种视觉环境。每个场景都设计了包含至少一次"回头"动作的长时间轨迹——玩家会探索一个区域，离开，然后返回原地，这样就能直接比较AI"第二次来到同一地点"时生成的画面与"第一次来到时"生成的画面有多相似。评估指标包括PSNR（信噪比，数值越高代表画面越接近参考）、SSIM（结构相似度，越高越好）、LPIPS（感知相似度，越低越好）和FID（分布距离，越低代表整体风格越一致）。
在LingBot-World-Fast这个14B大模型上，原生的全KV缓存注意力方案本已提供了不错的记忆效果，但运行速度只有每秒2.36帧，远低于实时要求。WorldKV在保持与全KV缓存相近的记忆质量（LPIPS从0.441微升至0.455，PSNR从15.901微降至15.660）的同时，把速度提升至每秒4.78帧，接近原生滑动窗口的5.05帧，基本实现了实时运行。滑动窗口方案由于没有记忆，各项指标都大幅落后（LPIPS高达0.581，PSNR只有12.184）。
在Matrix-Game-2.0这个专门在短片段上训练的1.3B小模型上，结果更加令人意外。全KV缓存方案不仅速度慢（每秒7.82帧），记忆质量还比WorldKV差——全KV的LPIPS为0.529，PSNR为13.748，而WorldKV分别达到0.462和14.101，反而更好，且速度高达每秒16.25帧。原因在于，这个模型是在短序列上训练的，当它被迫处理越来越长的历史记录时，那些来自"训练分布之外"的远古记录反而会干扰它，产生累积误差。WorldKV通过只检索相关记录、剔除不相关记录，帮助模型专注于真正有用的历史信息，反而得到了更好的效果。
研究团队还与两个专门为长期记忆训练过的对比模型进行了比较：WorldPlay（8B参数）和Yume-1.5（5B参数）。这两个模型都经过了专门的记忆模块训练，属于"有备而来"的选手。结果显示，LingBot-World-Fast加上WorldKV在LPIPS、PSNR和FID三项指标上均超过了这两个对比模型，SSIM基本相当，且运行速度更快——而这一切都是在不做任何训练的前提下实现的。Matrix-Game-2.0加上WorldKV则与两个对比模型基本持平或略有差距。
六、细节决定成败：压缩比如何影响记忆质量
研究团队还对世界压缩的参数设置做了系统的消融实验，也就是通过改变某一个参数、观察结果变化来理解每个设计选择的价值。
第一组实验调整的是"片段内压缩比"，也就是每个3帧片段最终保留多少帧等量的数据。从只保留锚点帧（相当于保留1.0帧），到完全不压缩（保留3.0帧），研究者测试了多个中间值。结果显示，只保留锚点帧的效果最差，说明非锚点帧中确实存在锚点帧没有的独特信息，不能全部丢弃。保留1.5帧（即本文默认设置）表现良好，保留更多数据带来的收益边际递减。这说明75%的非锚点内容确实是冗余的，压缩方案合理。
第二组实验调整的是"片段间覆盖范围"，也就是在同等的注意力窗口预算下，到底是存更多压缩过的片段，还是存更少但完整的片段。结果表明，将6个片段压缩后放入原本只能容纳3个完整片段的空间，比直接用3个完整片段效果更好——历史覆盖范围更广，对记忆质量的贡献超过了压缩带来的轻微信息损失。但把9个片段压缩到同等空间时，效果反而下降，说明过度压缩（每个片段只剩锚点帧）会损失太多独特信息。
另一组实验专门测试了检索片段数量与记忆质量的关系。随着检索片段数量从1增加到7，LPIPS、PSNR和SSIM在两个模型上总体呈改善趋势，证实了更广泛的历史覆盖对记忆有益。这也从另一个角度支持了世界压缩的设计初衷：压缩不只是为了省空间，更是为了让有限的注意力窗口能塞进更多的历史片段，从而提升记忆质量。
七、通用性验证：在第三个模型上的"不请自来"测试
为了进一步证明WorldKV不是只为特定模型"定制"的，研究团队还把它应用到了Inspatio-World这个完全不同的模型上——这是一个将输入视频转换为新视角序列的4D世界模型，原本对新生成内容没有任何长期记忆机制。实验结果显示，加上WorldKV之后，Inspatio-World也能在多次回头时保持场景的一致性，全程无需任何微调。这证明了WorldKV作为一个训练无关框架的普适性。
八、当前局限与未来方向：诚实面对还未解决的问题
研究团队在论文中坦承了WorldKV目前的几个局限。首先，WorldKV是一个推理时的记忆管理方法，它的上限受制于底层世界模型的生成质量。如果AI本身在超长序列上会产生视觉漂移，WorldKV无法从根本上消除这种问题，只能尽量减少不必要的记忆干扰。其次，CPU离线存储虽然能把VRAM占用压到很低，但每次从CPU读取数据送到GPU时的传输延迟，目前还会破坏实时生成的流畅度——如何加速这个传输过程是一个重要的未来研究方向，解决之后才能真正实现"无限时长、有界显存"的实时世界生成。此外，检索算法本身还有很大的改进空间，研究团队目前主要依赖摄像机姿态相似度，未来可以探索更复杂的语义匹配或注意力预测方法。
说到底，WorldKV做的事情，就是给一位能力出色但记性欠佳的AI画家，配备了一个精心整理的专用图书馆，并且雇了一位懂得在恰当时机取出恰当档案的图书管理员。画家的绘画能力本身没有变，但现在它能"翻阅"到真正需要的参考资料，而不是被一堆无关或重复的旧稿子淹没。
这对普通用户意味着什么？或许在不久的将来，AI驱动的互动游戏或虚拟旅行应用，能够在不需要超级计算机的情况下，真正实现"你去过的地方，回来还是原来的样子"——无论是那条街角的咖啡馆，还是森林深处的石头小屋。这种持久性不仅仅是视觉上的舒适感，更是建立真实沉浸感的基础，也是让AI世界模型真正走向实用的关键一步。
对AI在游戏、机器人训练或虚拟现实领域的应用感兴趣的读者，可以进一步思考：当AI生成的世界拥有了可靠的长期记忆，它能支撑什么样的新型交互体验？记忆本身是否会成为AI世界模型的"智识"基础，让它的反应不再只是局部刺激的即时响应，而是基于对整个世界历史的真正理解？这些问题，值得随着这一领域的发展持续关注。有兴趣深入了解技术细节的读者，可通过论文编号arXiv:2605.22718查阅完整原文。
Q&A
Q1：WorldKV需要对原来的AI世界模型重新训练吗？
A：不需要。WorldKV是一个完全训练无关的推理时框架，直接运行在现有模型之上，不修改任何模型参数，也不需要微调或蒸馏，可以直接插入到基于KV缓存的自回归世界模型中使用。
Q2：世界压缩会不会损失重要的画面细节？
A：研究显示，将每个3帧片段压缩至约1.5帧等量数据时，几乎不损失视觉质量，有时甚至优于未压缩方案。这是因为压缩保留了最具独特性的内容，剔除了大量冗余的重叠信息，让注意力窗口能容纳更多历史片段，反而提升了整体记忆覆盖范围。
Q3：WorldKV在小模型和大模型上效果一样好吗？
A：在14B的LingBot-World-Fast上，WorldKV接近全KV缓存的记忆质量同时速度提升约2倍；在1.3B的Matrix-Game-2.0上，WorldKV甚至超过了全KV缓存的记忆质量，因为该小模型在超出训练分布的长序列上容易产生误差累积，WorldKV的选择性检索有效避免了这一问题。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

打造AI网安“红队”：OpenAI介绍内部漏洞检测模型GPT-Red

挑战Claude神话：Kimi K3预热，多段AI对比视频流出

英伟达推出全新Jetson Thor计算机，搭配智能体技能，大幅压缩机器人内存使用量

光刻机卖爆！阿斯麦：中国市场很稳，英特尔是No.1

4.21亿美元赔偿还不够！美国重启337调查：英伟达、三星、谷歌等全涉案

IDC报告：阿里AI编程市场份额第一

全站最新

长安汽车高管预判：纯电与油电混动或成主流税收调整或致使用成本趋同

吉利星愿再创辉煌：2025至2026年6月累计销量突破80万辆登顶全品类销冠

打造AI网安“红队”：OpenAI介绍内部漏洞检测模型GPT-Red

挑战Claude神话：Kimi K3预热，多段AI对比视频流出

热门推荐

阿里通义千问嵌入苹果生态，开启国内大模型与全球硬件生态融合新篇章

xAI开源Grok Build：完整源码公开，本地编译离线运行工具调用全透明

荣耀机器人手机Robot Phone即将开启预约

从上海到世界：WAICA正以“AI原生”范式重写顶会规则

没人想在对话框里买东西

WAIC 2026前瞻：当AI从“能聊”变“能干”，1100家企业将交出怎样的答卷？

百度文库网盘启动重大升级，GenFlow将面向金融等行业推出AI工作台

Kimi K3 模型预热视频流出，多段对比直指Claude Fable5 发起挑战

打造AI网安“红队”：OpenAI介绍内部漏洞检测模型GPT-Red

挑战Claude神话：Kimi K3预热，多段AI对比视频流出

未来中国汽车谁占主流？长安汽车高管：纯电占65%，混动占35%

英伟达推出全新Jetson Thor计算机，搭配智能体技能，大幅压缩机器人内存使用量

光刻机卖爆！阿斯麦：中国市场很稳，英特尔是No.1

4.21亿美元赔偿还不够！美国重启337调查：英伟达、三星、谷歌等全涉案

IDC报告：阿里AI编程市场份额第一