当前位置: 首页 » 资讯 » 科技头条 » 正文

英伟达与MIT联手:让AI视频"回头看",长视频生成再也不怕"忘性大"

IP属地 中国·北京 科技行者 时间:2026-06-06 22:20:31


这项由英伟达、南加州大学(USC)与麻省理工学院(MIT)联合完成的研究,以预印本形式于2026年6月1日发布在arXiv平台,编号为arXiv:2606.02553。感兴趣的读者可以通过该编号在arXiv上检索完整论文。

你有没有看过那种动画片,主角在第三集明明是棕色眼睛,到了第十集却莫名变成了蓝色眼睛?制作团队可能只是在某一帧出了点小差错,结果越往后画,偏差越大,最后连主角的脸型都变了样。现在,AI在生成长视频时,面临的正是同样的麻烦——只不过它的"遗忘"速度更快,往往几秒钟之后,画面里的主角就开始"变脸"了。

这个看起来有些滑稽的问题,其实是当前AI视频生成领域最棘手的技术挑战之一。研究团队为此提出了一个名叫LongLive-RAG的新方法,核心思路只有一句话:让AI在生成新画面的时候,能够主动"翻阅"自己之前画过的内容,找出最相关的那一页,然后对照着继续画。

一、AI生成长视频时,为什么会"忘记"自己画了什么

要理解这个问题,可以用一个写小说的比喻来切入。假设你在写一部连载小说,规定自己每次只能看着最近写的五页内容往下续写,而不允许翻回前面的章节。刚开始,主角叫张三,身高一米八,穿着红色夹克。可是写了二十页之后,你在第十八页不小心把他写成了"矮个子",之后你就只看得到这个错误的描述,越往后写,张三就越矮,红夹克也不见了,最后变成了一个完全陌生的人物。

AI生成视频的方式,本质上就是这样一种"接龙游戏"。它按顺序、一块一块地生成视频片段,每生成一个新片段,就把上一个片段当作参考。为了节省计算资源,系统通常只保留最近的几个片段作为"记忆窗口",更早的内容会被直接丢弃。这套机制叫做"滑动窗口注意力",它的高效性毋庸置疑,但致命缺陷也因此而来——一旦"记忆窗口"里的内容出现了偏差,后续生成的所有内容都只能以这个偏差为基础继续"错"下去,而且错得越来越厉害。研究团队把这个现象形象地称为"错误积累"和"身份漂移"。

现有的解决方案大体分三类。第一类是在记忆窗口开头插入几个"锚点",也就是把视频最开始的几帧强制保留下来,让AI始终能看到主角最初的样子。第二类是对位置编码进行改造,让AI在数学层面上能够处理更长的序列。第三类是把老旧的历史帧"压缩打包"成几个简化的记忆符号,塞进窗口里。然而这三种方法都有各自的短板:锚点是固定的,不一定是当前最需要参考的内容;位置改造解决不了内容本身的漂移;而压缩打包的过程中,很多关键细节(比如角色特有的小动作、背景里某个独特的物件)往往会丢失,压缩版的记忆根本无法还原原始的视觉质量。

二、像图书馆管理员一样工作的AI:LongLive-RAG的核心思路

研究团队换了一个完全不同的角度来看这个问题。他们意识到,AI在生成过程中其实已经积累了大量的"历史片段",这些片段就像一个巨大的图书馆,里面存着视频每一个时间点的完整状态。问题不是历史不在了,而是AI找不到它、用不上它。

于是,LongLive-RAG的设计思路就变成了:给AI配一个聪明的图书馆管理员。每当AI要生成下一个视频片段之前,这个管理员会拿着"最新片段"当作检索关键词,在整个历史图书馆里快速翻找,把那些跟当前内容最相关的历史片段调出来,放到AI的"桌面"上供它参考。这样一来,即便最近几帧出现了偏差,AI仍然可以借助更早的、保存状态更准确的历史片段来"纠正"自己的创作方向。

这个类比中有一个细节非常重要:管理员取出来的,是历史片段的原始完整版本,而不是某个压缩摘要。AI在生成新内容时,直接看着这些原始的历史画面思考,不需要经过任何中间层的翻译或还原。这一点与"压缩打包"方案有本质区别——后者相当于给AI看的是某个助手手写的几句摘要,而LongLive-RAG让AI看的是原汁原味的页面本身。

在系统架构层面,LongLive-RAG维护着两个并行运转的数据库:一个存储的是每个历史片段的"索引卡"(即压缩后的检索向量),另一个存储的是对应的"原始内容"。检索时用"索引卡"快速定位,找到之后把"原始内容"直接提交给生成模型使用。这套设计使得检索速度极快,同时又保证了参考内容的质量不打折扣。

三、如何让AI学会"哪些历史画面最值得翻出来看"

光有图书馆还不够,还得有一套高效的检索系统。这里有一个棘手的问题:在连续的视频里,相邻的两帧画面往往高度相似,就像同一首歌里连续两个节拍。如果检索系统只是简单地找"最相似的历史片段",它很可能每次都只能找到"最近几帧"——而这些内容早就在当前的记忆窗口里了,检索它们毫无意义。

为了解决这个问题,研究团队专门设计了一种叫做"窗口时间差异损失"的训练方法。这个名字听起来复杂,背后的道理其实相当直观:检索系统在训练时,会被明确告知"不要把时间上紧挨着的片段认为是不同的东西",换句话说,相邻片段之间的相似度会被人为压低,逼着检索系统去关注那些真正有内容差异的历史时刻。

与此同时,研究团队还加了一个"轨迹平滑损失"。如果检索系统的判断太过跳跃——今天觉得片段A最重要,明天突然觉得片段Z才是关键——这种不稳定的检索结果反而会让AI生成的视频更加混乱。轨迹平滑损失的作用就是让检索系统的"注意力变化"更加平缓,就像一列火车不会突然急刹车,而是缓慢、连贯地调整速度。

最终,检索系统的训练目标由三个部分组成:重建损失负责保证"索引卡"忠实记录了画面内容;窗口时间差异损失负责让不同时间的内容在检索层面有足够的区分度;轨迹平滑损失负责保证检索结果随时间推移保持稳定。三者缺一不可,相互配合才能形成一套真正好用的检索系统。研究团队通过可视化对比(也就是论文中的图3)展示了这三个组件各自的作用,就像在热力图上看温度分布一样直观:只用重建损失时,相邻片段的相似度高得像一片深绿色的宽带;加了时间差异损失后,这条宽带变窄了;再加上平滑损失,整张图就变得规律而有结构了。

四、推理过程:每次生成新片段之前,AI会做什么

完整的工作流程可以用一次精心准备的手工绘画来类比。每当AI要开始画下一段视频之前,它会先做三件事:第一,用刚刚完成的那段视频的"索引卡"去图书馆检索,找出历史上最相关的K个片段(默认K=6);第二,把这K个历史片段的原始内容、加上当前记忆窗口里的最近几个片段,以及视频开头的"锚点片段",一起组合成完整的参考资料;第三,把这份参考资料交给核心生成模型,让它在充分参考的基础上完成新片段的生成。

有一个细节值得特别关注:为了防止检索系统"懒惰地"总是返回最近的几个片段(它们已经在记忆窗口里了,重复检索毫无意义),系统设置了一个"近期保护区",规定检索时自动跳过最近的R个片段(默认R=5)。这就像图书馆的规定:借书的人带着今天刚看过的书来找相关材料,管理员会主动推荐那些他没看过的旧书,而不是把他刚放下的书再塞回他手里。

从计算开销的角度来看,LongLive-RAG的额外负担非常小。在生成一段120秒的视频时,整个检索过程总共只增加了490毫秒的时间:其中480毫秒用于对每个历史片段进行"索引卡"编码,10毫秒用于实际的相似度搜索和前K名排序。相比于视频生成本身动辄数小时的计算时间,这点开销几乎可以忽略不计,就像在一顿需要烹饪三小时的大餐里,多花了三十秒时间翻阅菜谱。

五、实验结果:数字背后的真实表现

研究团队在三个不同的视频生成"底座模型"上测试了LongLive-RAG,分别叫做Causal-Forcing、Self-Forcing和LongLive。每个底座模型又与三种对比方案进行了比较:原始模型本身、加了位置编码改造的版本(∞-RoPE)、以及加了压缩历史记忆的版本(Deep Forcing)。测试覆盖了30秒、60秒和120秒三种视频长度,一共128个文字提示词,评估标准采用的是业界通用的VBench-Long评分体系,从主体一致性、背景一致性、动作流畅性、画面动态程度、美学质量和图像质量六个维度打分。

从最综合的指标"平均排名"来看,LongLive-RAG在所有三个底座模型、三种视频长度的组合中,都取得了最低的排名数值——排名越低代表综合表现越好。换句话说,不管是用哪个底座模型、生成多长的视频,加上LongLive-RAG之后的表现都是同类方法里最好的,无一例外。

从具体数字来看,以Self-Forcing底座模型生成120秒视频为例,加了LongLive-RAG之后,主体一致性从96.12分提升到97.64分,背景一致性从95.32分提升到96.40分,图像质量从61.57分提升到64.16分。单看这些数字可能感觉提升不大,但要知道这是在120秒这么长的视频里维持的一致性,而且这些评分指标本身就已经趋近于100分的上限,每提升一分都需要付出相当大的努力。

特别值得关注的是一个对比结果:在120秒视频测试中,使用Deep Forcing(也就是压缩历史记忆方案)的Self-Forcing模型,动态程度评分从43.39急剧跌落到了15.23,说明这种方法在极长视频中会导致画面变得"僵硬"甚至近乎静止。而LongLive-RAG在同样条件下,动态程度维持在44.10,几乎与原始模型持平。这个对比清晰地说明了"压缩打包"方案的代价:为了记住更多历史,它牺牲了视频的动态性;而LongLive-RAG因为检索的是原始完整内容,没有这个问题。

定性的视觉对比同样印象深刻。在论文的图4中,研究团队展示了同一个提示词在四种方法下生成的30秒视频截图。原始模型和∞-RoPE方案的视频,在中后期会出现明显的色调漂移(原本暖色调的场景变成了冷色调)、主角的服装和肤色发生变化,甚至出现"幽灵帧"(同一画面里突然多出一个半透明的重影角色)。Deep Forcing的视频在整体色彩上表现尚可,但背景细节模糊且不连贯。LongLive-RAG的视频则从头到尾保持了最稳定的角色外观和背景细节。

六、用消融实验证明每个设计决策的价值

研究团队还做了一系列"拆零件"测试,逐一验证每个设计组件的贡献,这在学术研究中叫做消融实验,可以理解为"如果把这个零件拆掉,机器还能跑多好"。

首先测试的是检索系统本身的重要性。如果随机检索历史片段(不用任何智能排序,纯凭运气),主体一致性评分为94.54,背景一致性为94.32。换成简单的平均池化描述符(一种常见的图像特征提取方法),略微提升到94.77和94.49。只用重建损失训练的检索编码器(不加时间差异和平滑损失),主体一致性进一步提升到94.82。加了时间差异损失之后,背景一致性和动作流畅性有所改善。而使用完整三个损失的版本,主体一致性达到95.43,图像质量达到70.07,全面超越所有简化版本。这个结果印证了三个损失组件各司其职、缺一不可的设计哲学。

其次测试的是K值(即每次检索几个历史片段)的影响。在总注意力预算固定的前提下(意味着检索更多历史片段就必须减少当前记忆窗口的大小),K=2时主体一致性为94.43,K=4时为94.78,K=6时达到峰值95.43——而K=8时,主体一致性反而大幅下滑到90.56,背景一致性也降至93.07,图像质量更是跌到60.02。这个倒U形曲线说明,检索的历史片段不是越多越好:太少了提供不了足够的长程参考,太多了又会挤占当前记忆窗口的空间,导致视频连续性断裂。K=6是在"长程参考"与"本地连续性"之间取得的最佳平衡点。

研究团队还做了辅助性的视觉语言模型(VLM)评估,请Gemini 3.1-Pro这样的多模态AI对生成视频进行打分(满分5分),从另一个角度交叉验证了VBench-Long的结论。结果显示,Causal-Forcing原始模型得2.60分,∞-RoPE方案提升到4.10分,Deep Forcing为3.55分,而LongLive-RAG达到4.70分,同样是最高分。在Self-Forcing和LongLive底座模型上,LongLive-RAG分别得到4.45分和4.75分,也都是同类方法中的最高水平。

七、为什么要在压缩的"潜空间"里检索,而不是对着实际画面检索

这是一个值得单独解释的设计选择,因为直觉上可能会有疑问:既然我们想找相似的画面,为什么不直接比对解码出来的实际视频帧,而是要在一个压缩的"潜空间"里检索呢?

原因有几个层面。从效率角度来说,现代AI视频生成系统通常在一个叫做VAE潜空间的压缩空间里工作,等所有片段都生成完毕之后,才统一解码成真实画面。如果要在每个片段生成后立刻解码、提取像素级特征、再做检索,就相当于在烹饪过程中每炒一道菜就要把厨房彻底清洗一遍,效率极低。

从质量角度来说,潜空间的向量本身就已经包含了丰富的视觉语义信息,而且这些信息与生成模型的内部语言是"同母语"的,不需要额外翻译。相比之下,用现成的图像特征提取工具(比如论文中提到的DINO特征)来处理解码后的实际画面,虽然语义丰富,但与生成模型的内部状态存在一定的"语言隔阂",而且这类工具往往对时间上相邻的帧过于敏感,检索结果依然会集中在最近的几帧,无法有效找到时间较远但内容相关的历史片段。研究团队通过论文中的图5展示了这个问题:用DINO特征的相似度热力图,依然是一条紧贴对角线的深色带,说明它检索到的大多数是近邻,而不是有用的远程历史。

此外,从系统一致性的角度来看,同样的压缩空间被三个不同的底座模型共享(因为它们都使用同一套WAN VAE编解码器),这意味着只需要训练一个检索编码器,就能为三个不同的底座模型服务,无需针对每个模型单独训练,大幅降低了部署成本。这也是LongLive-RAG声称是"通用框架"的底气所在。

说到底,LongLive-RAG做的事情,是给AI视频生成系统加装了一套"图书馆检索服务"。它不改变AI本身的绘画能力,也不压缩历史记忆,而是让AI在每次动笔之前,有机会翻阅自己过去画过的所有内容,找出最能帮助当前创作的那几页,然后对照着继续画下去。这套机制在120秒这样的极长视频里效果尤为显著,而且检索本身的计算开销只占总生成时间的极小一部分。

当然,这个方法也有它的边界。研究团队在论文末尾坦率地指出,LongLive-RAG建立在一个固定的底座模型之上,它能做的只是更好地选择和利用历史内容,最终视频质量的天花板仍然由底座模型本身的能力决定。换句话说,如果底座模型本来就画不好,更聪明的图书馆检索服务也无法让它突破自身的能力上限。这是一个诚实而重要的提醒。

归根结底,这项研究告诉我们,AI的"记忆"问题并不一定需要通过"记住更多"或"记住更好"来解决,有时候,"在正确的时机找回正确的记忆"才是更优雅的答案。对于那些对视频生成技术或AI记忆机制感兴趣的读者,完整论文可以在arXiv上通过编号2606.02553找到,代码也已开源在GitHub上(搜索qixinhu11/LongLive-RAG即可)。

Q&A

Q1:LongLive-RAG检索历史视频片段的依据是什么?

A:LongLive-RAG使用一个专门训练的轻量级编码器,将每个历史片段压缩成1024维的向量,然后用余弦相似度计算当前片段与历史片段之间的相关程度,选出最相关的前K个历史片段作为参考。这个编码器通过三个损失函数共同训练:重建损失保证内容保真度,窗口时间差异损失让相邻片段在检索层面有足够区分度,轨迹平滑损失保证检索结果随时间保持稳定。

Q2:LongLive-RAG会不会让视频生成速度变慢很多?

A:不会。在生成120秒视频的完整过程中,LongLive-RAG引入的检索额外开销总共只有490毫秒,其中编码历史片段占480毫秒,相似度搜索仅占10毫秒。与视频生成本身动辄数小时的计算时间相比,这点额外开销微乎其微,几乎可以忽略不计。

Q3:LongLive-RAG检索多少个历史片段效果最好?

A:实验表明,在总注意力预算固定的前提下,K=6(即每次检索6个历史片段)效果最佳。检索太少(K=2)提供的长程参考不足,检索太多(K=8)则会挤占当前记忆窗口的空间,导致视频连续性下降,主体一致性评分从95.43大幅跌至90.56。K=6是长程参考与本地连续性之间的最佳平衡点。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新