当前位置: 首页 » 资讯 » 科技头条 » 正文

Adobe公司推出RELIC:游戏引擎实现20秒长时记忆

IP属地 中国·北京 科技行者 时间:2025-12-09 00:17:32


这项由Adobe公司的Yicong Hong、Yiqun Mei、Chongjian Ge等研究人员领导的突破性研究发表于2025年12月1日,论文编号为arXiv:2512.04040v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

说起视频游戏,我们都习惯了这样的体验:你在一个虚拟世界里四处走动,看过的风景、探索过的角落,当你再次回到那里时,一切都还在原地等着你。但如果要用人工智能来生成这样的世界,就变成了一个超级复杂的挑战。就好比你要求一个画家一边画画,一边记住他之前画过的每一个细节,还要保证画面连续流畅,不能有任何断层。

Adobe的研究团队开发出了一个叫做RELIC的系统,它可以从一张静止图片开始,创造出一个你可以实时探索的虚拟世界。这就像是给了你一张风景照,然后神奇地让你能够走进照片里,四处看看,甚至20秒后回到原来的位置,发现之前看到的那棵树、那栋房子都还完好地在那里。

这项研究解决了一个困扰人工智能领域很久的问题:如何让AI生成的视频世界既能实时响应用户操作,又能准确记住之前生成过的内容。传统的AI视频生成就像一个健忘的导游,每次带你参观都是全新的体验,完全不记得上次你们一起看过什么。而RELIC就像一个记忆超群的导游,不仅能实时响应你的需求,还能准确记住你们之前探索过的每一个地方。

一、游戏世界的记忆难题

要理解RELIC解决的问题,可以把它比作经营一家主题公园。一个普通的主题公园,游客只能按照固定路线参观,看到的都是事先准备好的景点。但RELIC要创建的是一个"魔法主题公园",游客可以自由选择方向,想去哪里就去哪里,而且当他们重新回到之前参观过的地方时,那里的一切都应该和上次看到的完全一样。

传统的AI视频生成面临三个核心挑战,就像三个必须同时解决的魔法咒语。第一个咒语是"实时响应",意思是当用户按下键盘想要向左转时,视频必须立即生成向左转的画面,不能让用户等待。第二个咒语是"长期记忆",也就是说,当用户在虚拟世界里兜了一大圈又回到起点时,起点的景象必须和最初看到的完全一致。第三个咒语是"精确控制",用户想要向上看天空、向下看地面,或者快速移动、缓慢移动,系统都必须准确理解并执行。

问题在于,这三个咒语往往会相互冲突。想要实现长期记忆,就需要存储大量的历史信息,这会严重拖慢系统速度,影响实时响应。想要精确控制,就需要复杂的计算,这又会消耗更多资源。就好比你要求一个人一边快速奔跑,一边背诵所有看到过的东西,还要随时准确回应你的各种指令,这几乎是不可能完成的任务。

RELIC的创新之处在于找到了一种巧妙的平衡方案。它就像一个聪明的图书管理员,不是把所有书都放在手边,而是建立了一套高效的索引系统。当需要某本书时,能够迅速找到并取出,平时则把书整理压缩存放,节省空间又保证效率。

二、双师制教学的创新架构

RELIC采用了一种类似"双师制教学"的方法来训练AI模型。在这个比喻中,有一位"资深教师"和一位"实习教师"。资深教师学识渊博,能够生成高质量的20秒长视频,但工作节奏比较慢。实习教师学习能力强,工作速度快,但经验不足。RELIC的目标就是让实习教师通过学习资深教师的知识,最终能够快速生成同样高质量的视频。

这个双师制的核心在于一个叫做"自我强化学习"的过程。就好比学开车时,教练不仅会示范正确的驾驶方式,还会让学生自己开车,然后根据实际驾驶情况给出指导。RELIC的实习教师在学习过程中,不仅要模仿资深教师的输出结果,还要在自己生成视频的过程中不断自我纠正,逐步改善。

资深教师的优势在于能够处理长时间的视频序列。传统的AI模型通常只能处理5秒左右的短视频,就像只能背诵短诗的学生。但RELIC的资深教师经过特殊训练,能够处理长达20秒的视频序列,这为整个系统提供了强大的"长期记忆"基础。这种扩展是通过一种叫做"课程学习"的方法实现的,先从5秒开始训练,然后逐渐增加到10秒、20秒,就像体能训练时逐渐增加运动强度一样。

更关键的是,资深教师在学习过程中不仅要掌握视频生成技巧,还要学会理解用户的控制指令。研究团队设计了一套13维的动作空间,涵盖了用户可能做出的各种操作:前进、后退、左移、右移、上升、下降等6种平移动作,以及上看、下看、左转、右转等6种旋转动作,再加上一个"静止"指令。这就像为司机设计了一套完整的操控系统,不仅有方向盘和油门刹车,还有各种辅助控制按钮。

三、压缩记忆的魔法技术

RELIC最巧妙的创新在于它的记忆管理系统,这就像一个超级智能的压缩软件,能够在保留关键信息的同时大幅节省存储空间。当你在虚拟世界中移动时,RELIC会将你看过的画面进行高度压缩,然后存储在一个叫做"KV缓存"的特殊存储空间里。

这个压缩过程可以比作一个专业摄影师整理照片的方式。摄影师不会保留每张照片的全部原始数据,而是会根据照片的重要性和使用频率,保留不同清晰度的版本。最近拍摄的照片保持最高清晰度,稍微久远一些的照片进行适度压缩,而很早之前的照片则进行大幅压缩但仍然保留关键特征。

RELIC的记忆系统包含两个部分:滚动窗口缓存和压缩的长期空间记忆缓存。滚动窗口缓存就像你的短期记忆,存储最近几帧的完整信息,确保画面的连续性和流畅性。而压缩的长期空间记忆缓存则像你的长期记忆,存储经过特殊处理的历史信息。

这种压缩不是简单的缩小图片,而是一种智能的信息提取。系统会保留每个位置的相机姿态信息,包括相对动作和绝对位置。相对动作告诉系统"我从这里向左移动了多远",而绝对位置则提供"我现在在世界坐标系中的确切位置"。当用户回到之前探索过的位置时,系统就能通过这些位置信息快速检索出对应的压缩记忆,然后重建出相应的画面。

更令人惊叹的是,RELIC能够将总的记忆存储量减少到原来的四分之一,从12万个记忆单元压缩到3万个,同时还能保持画面的高质量和空间一致性。这就像把一整套百科全书压缩成几本精华版,但当你需要查找任何信息时,仍然能够快速准确地找到所需内容。

四、突破性的反向传播技术

在训练RELIC这样复杂的系统时,研究团队遇到了一个类似"鸡生蛋还是蛋生鸡"的技术难题。要训练出能生成20秒长视频的AI模型,就需要让模型在训练过程中处理20秒的完整视频序列。但处理如此长的序列会消耗大量的计算资源和内存,就像要求一台普通电脑同时运行几十个大型游戏一样,根本无法承受。

为了解决这个问题,RELIC的研究团队发明了一种叫做"重放反向传播"的技术。这个技术可以比作一个聪明的考试策略:不是一次性做完所有题目再检查答案,而是先快速浏览所有题目得到大概印象,然后逐题仔细分析和改正。

具体来说,系统首先会快速生成整个20秒的视频序列,但在这个过程中不进行复杂的学习计算,就像先快速浏览一遍考试题目。然后,系统会计算这个生成结果与标准答案之间的差异,并将这些差异信息保存起来。接下来的学习阶段,系统会回到视频的开头,逐个小段地重新生成视频,同时使用之前保存的差异信息来指导学习和改进。

这种方法的巧妙之处在于将内存消耗从整个20秒序列的规模降低到单个视频片段的规模,就像把一个巨大的难题分解成许多个小问题来逐一解决。每处理完一个小段,系统就会立即释放相应的内存资源,然后再处理下一个小段,这样就能在有限的硬件资源下完成看似不可能的训练任务。

这个创新不仅解决了内存限制问题,还保证了学习效果。因为系统能够看到完整的20秒视频效果,所以学习到的知识是全面和一致的,不会出现只见树木不见森林的局限性。

五、来自虚幻引擎的完美训练数据

要训练RELIC这样的AI系统,需要大量高质量的训练数据,就像培养一个世界级的厨师需要让他品尝和练习制作各种不同的菜肴一样。但获得合适的训练数据是一个巨大的挑战。现实世界的视频虽然真实,但往往缺乏精确的控制信息,而且视角变化有限。游戏录像虽然有控制信息,但通常局限于特定的游戏风格和场景。

研究团队采用了一个创新的解决方案:使用虚幻引擎(Unreal Engine)这个专业游戏开发工具来创建专门的训练数据。这就像为培训飞行员而建造一个完全可控的飞行模拟器,能够创造各种复杂的飞行情况和环境条件。

团队精心策划了350个高质量的3D场景,涵盖室内环境如家庭、办公室,以及户外环境如森林、山脉、街道等。然后安排人类操作者在这些场景中进行导航,使用受物理碰撞约束的相机控制器来确保移动的真实性。整个过程中,系统会精确记录相机的6自由度运动轨迹,包括位置、方向和对应的时间戳。

最终收集到的数据集包含超过1400条人类控制的相机轨迹,总时长超过1600分钟,平均每个视频片段约75秒,最长的可达9分钟。这些数据的特殊价值在于动作分布的平衡性和路径的多样性。真实世界的视频往往以前进运动为主,很少有侧移或旋转,而RELIC的训练数据中包含了均衡分布的各种运动类型,使AI能够学会响应用户的各种控制指令。

更重要的是,这些轨迹特意设计了大量的"重访"场景,也就是相机会在探索过程中多次返回之前去过的位置。这种设计对于训练AI的长期记忆能力至关重要,就像教一个导游不仅要会带路,还要能准确记住每个景点的特色,在游客要求再次参观时能够保持一致的介绍。

六、实时运行的优化魔法

让RELIC能够在普通硬件上实时运行,需要一系列精巧的优化技术,就像为一辆高性能跑车进行全面的轻量化改造,在保持性能的同时提高燃油效率。研究团队采用了多项技术来突破计算和内存的瓶颈。

首先是代码编译优化。团队使用了torch.compile技术来减少程序运行时的开销,这就像为汽车发动机安装更高效的燃油喷射系统,让每一滴燃油都能发挥最大效用。这种优化主要针对一些基础的数学运算模块,如归一化处理、旋转位置编码和调制层等。

内存管理方面,团队采用了多项创新措施。他们将KV缓存以FP8 E4M3格式存储,这种格式只使用传统格式一半的内存空间,就像使用更紧凑的包装方式来存储同样数量的物品。同时,他们还采用了FlashAttention v3技术配合FP8内核,在NVIDIA H100这样的新一代GPU上实现了更好的性能表现。

更巧妙的是并行化策略。RELIC采用了一种混合的并行化方案,就像指挥一个大型管弦乐队,不同乐器组负责不同的部分,但整体协调一致。具体来说,线性层和交叉注意力模块采用序列并行化,也就是将长序列分割给不同的处理器;而自注意力模块采用张量并行化,将注意力头分配给不同的处理器。当需要在这两种并行方式之间切换时,系统使用NCCL All-to-All操作来重新分布数据,确保计算的连续性。

通过这些综合优化,RELIC最终能够在4张H100 GPU上实现16帧每秒的实时生成速度,同时保持480×832的高分辨率输出。这意味着用户在使用时几乎感受不到延迟,能够获得流畅的实时交互体验。

七、超越竞争对手的实验验证

为了验证RELIC的性能,研究团队进行了全面的对比实验,就像举办一场公平的技能比赛,让所有参赛者在相同条件下展示各自的能力。他们选择了当前最先进的两个竞争对手:Matrix-Game-2.0和Hunyuan-GameCraft作为对比基准。

实验设计采用了220张来自Adobe Stock的测试图片,涵盖现实场景如风景、城市环境、室内空间,以及非现实场景如卡通、矢量艺术、油画等。这些图片被随机分成11组,每个AI系统都要处理相同的图片并生成20秒长度的视频,然后从视觉质量和动作准确性两个维度进行评估。

在视觉质量方面,RELIC表现出了明显的优势。研究团队使用VBench评估框架的多个维度来衡量视频质量,包括主体一致性、背景一致性、运动平滑度、动态程度、美学质量和成像质量。最终的平均分显示,RELIC获得了0.8015分(满分1分),而Matrix-Game-2.0获得0.7447分,Hunyuan-GameCraft获得0.7885分。虽然RELIC的训练分辨率只有480p,但在图像质量方面能够与在720p数据上训练的Hunyuan-GameCraft相媲美,在美学评分上甚至表现更优。

动作准确性的测试更加严格。研究团队让所有系统执行相同的预定义动作序列,然后使用ViPE技术从生成的视频中重建相机轨迹。通过Sim(3) Umeyama对齐消除尺度和坐标系差异后,计算平移和旋转的相对姿态误差(RPE)。结果显示,RELIC在平移误差方面达到0.0906,旋转误差为1.00,明显优于其他竞争对手。

更直观的对比体现在实际使用场景中。当用户想要向上仰视时,Matrix-Game-2.0会在画面顶部产生黑色区域,无法生成新内容;Hunyuan-GameCraft则几乎没有垂直运动响应。而RELIC能够准确响应指令,生成相应的天花板结构和新视角内容。当用户想要侧向移动时,Hunyuan-GameCraft会错误地执行旋转动作,Matrix-Game-2.0则可能完全静止不动,只有RELIC能够准确执行侧向平移并揭示正确的视角变化。

八、多样化应用的惊人潜力

RELIC的能力远超传统的视频生成系统,展现出了令人惊叹的多样性和适应性。它不仅能够处理常规的室内外真实环境,还能够在各种艺术风格中游刃有余,包括油画、漫画插图、矢量艺术、低多边形渲染等多种视觉风格。这种泛化能力就像一个多才多艺的演员,能够在不同类型的电影中都表现出色。

特别值得注意的是RELIC的距离感知能力。在生成的视频中,远处的建筑和景物移动速度较慢,而近处的物体移动速度较快,完全符合真实世界的视觉规律。这种细节处理显示了系统对3D空间结构的深度理解,不是简单的2D图像处理,而是真正理解了三维世界的几何关系。

速度控制是RELIC的另一个突出特色。由于采用了连续数值而非二进制标志来表示动作强度,用户可以通过调整位移系数λ来自由控制探索速度。无论是缓慢的漫步还是快速的移动,RELIC都能保持高质量和时间稳定的输出。这就像一辆能够在各种速度下都保持平稳行驶的高级轿车。

多键控制功能让用户体验更加丰富和直观。RELIC能够可靠地响应复合操作,比如在前进的同时转头观察,或者在侧移的过程中调整视角高度。这种复合动作控制为用户提供了高度的运动自由度,使虚拟世界探索变得更加自然和流畅。

长期记忆能力可能是RELIC最令人印象深刻的特色。即使在大幅度的相机运动之后,系统仍能准确恢复之前生成的场景内容,细节损失极小。这种能力在对比实验中表现得尤为明显:当相机离开某个区域后再次返回时,其他系统往往会生成完全不同的内容,而RELIC能够忠实地重现之前的场景,包括物体的位置、纹理和光照等细节。

九、技术局限与未来展望

尽管RELIC取得了突破性进展,但研究团队也诚实地指出了当前系统的一些局限性。这些局限性主要源于训练数据的特性和计算资源的约束,就像一个刚刚毕业的学生,虽然掌握了扎实的基础知识,但在某些专业领域还需要进一步的学习和实践。

首先是场景动态性的限制。由于RELIC主要在静态场景渲染的数据上训练,生成的视频在场景动态性和多样性方面仍有改进空间。现在的RELIC就像一个专门拍摄风景照的摄影师,虽然能够完美捕捉自然风光,但在拍摄运动场面或人物活动时还不够熟练。这个问题可以通过扩展训练数据集来逐步改善,加入更多动态场景和互动元素。

生成时长的扩展是另一个挑战。虽然RELIC已经能够生成20秒的高质量视频,但距离真正的"无限探索"还有一段距离。要实现分钟级别的连续生成,需要进一步优化内存管理和长期一致性保持机制。这就像马拉松运动员需要专门的耐力训练才能跑完全程一样。

计算资源需求是当前最实际的限制。RELIC需要大型模型(14B参数)、KV缓存用于长期记忆,以及多次迭代的去噪步骤,这些都对硬件提出了较高要求。在资源受限的环境下,推理延迟会显著增加。不过,随着硬件技术的快速发展和优化算法的不断改进,这个问题有望在不久的将来得到缓解。

尽管存在这些局限性,RELIC为交互式视频世界建模领域奠定了坚实的基础。研究团队相信,通过有针对性的改进,包括数据集的扩充、训练策略的优化,以及硬件资源的合理配置,这些问题都是可以解决的。更重要的是,RELIC展示的技术路径是可行和可扩展的,为未来更高级的世界模拟器提供了明确的发展方向。

RELIC的出现标志着我们向真正的交互式虚拟世界迈出了重要一步。虽然现在还不能完全替代传统的游戏开发或视频制作,但它开辟了一个全新的可能性空间。未来,我们可能会看到这项技术在教育培训、娱乐体验、设计预览、甚至是虚拟旅游等领域发挥重要作用。当技术进一步成熟时,每个人都可能拥有创造和探索个人专属虚拟世界的能力,这将彻底改变我们与数字内容交互的方式。

Q&A

Q1:RELIC和传统视频游戏引擎有什么区别?

A:传统游戏引擎需要开发者预先构建所有3D模型和场景,而RELIC只需要一张图片就能生成可探索的世界。它就像一个魔法画师,能把静态图片变成可以自由行走的三维空间,而且还能"记住"你去过的地方,确保再次返回时景象保持一致。

Q2:RELIC生成的视频世界能保持多长时间的记忆?

A:RELIC目前能维持20秒时长的连续记忆,这意味着你可以在虚拟世界中探索20秒,然后返回最初位置时仍能看到与开始时完全一致的景象。虽然20秒听起来不长,但这已经是这类AI技术的重大突破,因为大多数同类系统只能维持几秒钟的一致性。

Q3:普通用户现在能使用RELIC技术吗?

A:目前RELIC还是研究阶段的技术,需要专业的GPU设备才能运行。研究团队使用4张H100 GPU才能实现16帧每秒的实时生成。不过随着硬件技术发展和算法优化,未来这项技术有望普及到消费级设备上,让普通用户也能体验从照片创建虚拟世界的神奇功能。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。