![]()
这项由中国科学院计算技术研究所人工智能安全国家重点实验室联合中国科学院大学、中国矿业大学(北京)、苏黎世联邦理工学院、纽约城市大学城市学院以及厦门数据智能研究院共同完成的研究,以预印本形式发布于2026年5月15日,论文编号为arXiv:2605.16003,有兴趣深入了解的读者可通过该编号查阅完整原文。
你有没有这样的经历——跟朋友讲一个长故事,讲到中间突然忘了最开始说的是什么场景,然后前言不搭后语,把听众搞得一头雾水?AI生成视频系统正面临着完全相同的困境,而且麻烦比这更复杂。一段五分钟的视频,对AI来说就像一个需要同时记住几百个画面细节的超长叙事,稍有不慎,画面中的角色就会悄悄换张脸,背景会莫名奇妙地变换,前面精心铺垫的场景在后半段被彻底遗忘。
这项研究的核心贡献,就是给AI视频生成系统装上一套真正能用的"记忆管理系统",研究团队将其命名为Echo-Forcing。这个名字很有意思——"回响",就像声音在山谷中传播后再次回来,代表着历史信息被有序保存、在需要时被准确召回的能力。
一、为什么AI"记性差"是个大问题
要理解Echo-Forcing解决了什么问题,先得明白现在的AI视频生成是怎么工作的。
目前最先进的视频生成模型采用的是一种叫做"自回归"的方式来生成视频,通俗地说,就是每次只生成一小段画面(比如几秒钟),然后把这段画面记下来,再生成下一段,如此循环。这就像作家写长篇小说时,写完一章再写下一章,而且每次下笔时都要回顾一下之前写了什么,保证故事连贯。
AI在这个过程中用来"记忆"历史画面的工具,叫做KV缓存(Key-Value Cache)。可以把它理解成一个速记本:AI把已经生成的画面信息摘要记在本子上,生成新画面时翻看这本速记本来保持一致性。问题在于,这本速记本的容量是有限的,当视频越来越长,速记本装不下了怎么办?现有的方法基本上就是"先进先出"——最早记的东西被新的内容顶出去,就像一个只能装21张便利贴的留言板,贴满了就得撕掉最旧的。
这个策略在视频内容一直不变、只是慢慢往下推进的情况下还勉强能用。但现实中的视频往往更复杂:导演会切换场景,故事会在不同地点之间跳跃,甚至需要在后面回到之前出现过的某个场景。这时候,简单的"忘旧记新"策略就完全失效了。
研究团队经过深入分析,找到了问题的根本症结:所有历史记录都被当成同等重要的东西塞在一起,没有区分哪些是"稳定的地基",哪些是"需要随时翻看的近期记录",哪些是"将来要召回的重要场景"。这就好比一个编剧把所有的剧情便条、场景卡、人物介绍全部混在一个大袋子里,找东西的时候只能翻个底朝天,而且袋子满了就只能把最旧的扔掉,结果第一集的核心设定可能就这么丢了。
研究团队将这种混乱状态称为"KV状态的功能性纠缠",意思是不同功能的历史信息被强行塞进同一个管理框架,导致了三重困境:一是背景信息被过时数据污染,二是新指令的响应被延迟,三是长距离的场景记忆丢失。
二、解题思路:把"记忆"变成有生命周期的活档案
Echo-Forcing的核心思想可以用一家档案馆来理解。一家运转良好的档案馆不会把所有文件都堆在同一个房间里,而是会分区管理:常用的近期文件放在前台触手可及的地方,重要的历史文件被整理归档方便查阅,不再相关的过时文件则会被有序销毁。
研究团队把AI的记忆管理提升到了同样的高度,提出了"场景记忆生命周期"的概念:每一段历史信息都应该有它的生命周期——被保存(Preserve)、被召回(Recall)、被遗忘(Forget)。这三个环节分别对应了Echo-Forcing的三个核心机制,它们互相配合,共同构成了一套完整的记忆管理体系。
三、第一重机制:把记忆分成三层的"分级档案柜"
第一个核心机制叫做"分层时序记忆"(Hierarchical Temporal Memory),负责处理日常的视频生成过程,也就是在场景不发生大切换时,如何维持长期的稳定性和近期的流畅性。
研究团队发现,AI在生成视频时需要三种不同"时间跨度"的记忆:最早期的画面提供全局参考(就像一部电影的世界观设定,要贯穿始终);中间阶段的画面提供演化背景(就像故事的主线剧情,需要被压缩保存);最近几秒的画面提供局部连续性(就像刚刚发生的动作,要与下一帧无缝衔接)。
对应这三种需求,Echo-Forcing设计了三个专属的存储区域。
第一个区域叫做"双向滚动早期锚点"。所谓"锚点",就像船锚一样,把整个视频稳定在最初建立的视觉风格和内容基础上。系统从最早生成的画面中挑选出最清晰、最有代表性的若干帧,作为长期参考基准。这些锚点帧被存入一个拥有18个格位的循环池,每次实际使用12个。为了避免一直反复使用同样的几帧导致画面僵化,系统会以"一正一反"交替的顺序刷新这些锚点——先正向浏览,再反向浏览,再正向……这种双向轮换的方式既保证了稳定性,又不让视频陷入呆板重复。
第二个区域叫做"漂移门控相位压缩",这个名字看起来很高深,但背后的逻辑其实相当直观。在漫长的视频生成过程中,历史上留下的大量画面记录不可能全部保留,必须经过压缩筛选,只保留最有价值的部分。怎么判断一段历史记录"最有价值"?普通方法是直接用当前的视觉注意力分数来打分,但这有个问题:离当前时刻越近的记录分数往往越高,而真正重要的远古记忆可能反而被淘汰。
Echo-Forcing的解法是建立一个"基准参考系":在视频生成的早期阶段(画质最稳定、内容最可信的阶段),收集AI的注意力模式,计算出一个平均的"标准查询中心"。此后在筛选历史记录时,不是用当前的注意力偏好来评分,而是用这个稳定的标准查询中心来评估每条历史记录"将来可能有多大用处"。
但早期建立的参考系也不是一成不变的金科玉律。随着视频的发展,整体风格可能会有所漂移,这时候如果死抱着最初的标准不放,反而可能错过有用的近期信息。于是系统引入了一个"漂移门"——通过比较当前注意力中心与早期标准之间的相似度来动态调整。当两者吻合度高时,完全依照早期标准;当偏差变大时,相应降低早期标准的权重,转而更多依赖近期信息。这个门控机制就像一个经验丰富的编辑,既尊重最初的创作方向,又懂得与时俱进。
第三个区域则是"近期滑动窗口",保留最新生成的几帧画面,确保当前这段视频与上一段的动作、光线、构图完全连贯,不出现突兀的跳跃。
第四个配套设计是"相对RoPE位置编码"。这是一个技术性处理,但它解决的问题很好理解:AI模型在训练时只见过21帧以内的短视频,当视频生成到成百上千帧时,AI从没见过"第500帧"、"第1000帧"这样的位置编号,会感到完全陌生。解决方案是不告诉AI真实的帧序号,而是永远把当前活跃的缓存重新编号为第0帧到第20帧,无论真实视频已经生成了多长。这样AI始终工作在它熟悉的范围内,不会因为位置数字超出训练经验而产生错误。
通过实验验证,这套分层记忆机制在生成60秒和120秒的长视频时,在视觉质量(画质评分从70.48提升至72.83)、时序稳定性(运动流畅度达到99.05,为所有对比方法中最高)和动态表现等指标上均达到最佳水平,同时保持了15.71帧每秒的有竞争力的生成速度。
四、第二重机制:为每个场景建一张"精华速写"
第二个核心机制叫做"场景召回帧"(Scene Recall Frames),专门解决"用户想要AI重新回到之前某个场景"这个需求。
在电影制作中,这种情况非常常见。比如故事的前三幕分别在屋顶、地铁、书店展开,后三幕要依次"重访"这三个地点,但动作和细节有所不同——这就需要AI在生成第四幕时能准确还原第一幕的屋顶场景,而不是凭空杜撰或者把第三幕的书店场景张冠李戴。
最直接的方法是把每个场景的所有原始画面帧都完整保存起来,等到需要召回时直接拿来用。但这样做的代价极高:存储每个场景几十帧的完整视觉信息,随着场景数量增加,内存消耗会迅速爆炸。而且大量的原始帧中有很多是重复的或者信息量很低的,直接塞入AI的注意力机制反而会产生干扰。
另一种方法是只保存每个场景的单独一帧作为代表。但这样又太简单粗暴了——一个场景里角色可能在不同时刻有不同的姿势、位置和表情,单独一帧无法全面代表整个场景的信息。
Echo-Forcing采用了一个更精妙的中间方案:从每个场景的稳定阶段选取5帧候选画面,然后对这5帧进行"空间位置加权融合"。具体来说,画面中的每一个空间位置(比如左上角、正中央、右下角)独立地对这5帧进行评估,根据每一帧在该位置上的信息质量分配权重,再加权平均出一个"精华代表"。
这就像是为一个场景制作一张精华速写:素描师不会机械地复制某一刻的画面,而是综合这个场景里最有代表性的视觉特征,提炼出一张既紧凑又信息丰富的浓缩图像。这张速写被存入"场景记忆池",等到该场景被召回时直接取用,既保证了信息的丰富度,又控制了存储和计算的开销。
实验数据清晰地验证了这个设计的优越性。在场景召回任务上,没有记忆支持的基准模型主体一致性仅有74.97分;改用场景第一帧作为参考能提升到76.14分;选用最关键单帧能达到76.49分;而使用Scene Recall Frames的融合方式,主体一致性跃升至83.39分,文本对齐度也从33.48提升至34.27,远超所有单帧方案。
五、第三重机制:像免疫系统一样"消化"旧记忆
第三个核心机制叫做"差异感知记忆衰减"(Difference-aware Memory Decay),它处理的是最微妙的问题:场景发生切换之后,旧场景的残留记忆应该如何处理?
直觉上最简单的做法是"一刀切"——新场景开始,把所有旧场景的记忆一次性清空。但这个方法太粗暴了。很多时候,新旧场景之间存在部分重叠——比如同一个人物出现在不同背景中,人物的外貌、服装、动作习惯等信息在新场景中依然有用;或者两个场景的整体色调和光线风格相近,旧的背景记忆不仅无害,反而有助于保持视觉连贯性。
所以正确的做法不是清空,而是有选择地清空——对旧记忆中与新场景冲突的部分快速清除,对与新场景兼容的部分慢慢消退甚至保留。
Echo-Forcing的实现方式如下:切换到新场景后,系统先生成新场景的第一段干净画面作为参照。然后对缓存中的每一条旧场景记忆,计算它与新场景参照在对应空间位置上的相似度——差异越大,说明这条旧记忆与新场景冲突越严重,就给它分配越高的"遗忘强度";差异越小,说明这条旧记忆对新场景仍有参考价值,就给它分配较低的遗忘强度。
随后,每条旧记忆的权重按照各自的遗忘强度以指数方式衰减:遗忘强度高的记忆权重迅速缩小,遗忘强度低的记忆权重缓慢减少。这个衰减同时作用在记忆的"钥匙"(Key)和"数值"(Value)两个层面——前者影响AI在搜索时"找不找得到"这条记忆,后者影响找到后"它能产生多大影响"。双层衰减产生了双重压制效果:冲突记忆不仅越来越难被注意到,即使被注意到,其影响力也越来越微弱。
这套机制就像人体的免疫系统处理旧伤疤的方式:身体不会一夜之间把伤口附近的所有组织都切掉,而是随着新组织的生长,逐渐让旧组织中不再需要的部分被吸收和替换,而真正有用的结构性组织则被保留下来。
实验表明,这种差异感知式的软衰减远优于固定比例的统一衰减。不做任何衰减时,文本对齐度仅有25.74分;使用固定衰减率0.5时提升到27.34分;而Echo-Forcing的差异感知衰减将文本对齐度进一步推到了29.77分,同时主体一致性(95.32)和背景一致性(93.74)也均高于所有固定衰减策略。
六、四种交互模式,一套系统全搞定
上述三重机制协同运作,使Echo-Forcing能够在一个统一的框架内支持四种截然不同的长视频生成模式。
第一种是最基础的"长时程生成"——在单一场景下持续生成几分钟甚至更长的视频。分层时序记忆全程负责,锚点层保持全局稳定,压缩层维持中期演化,近期窗口保证局部流畅。
第二种是"平滑过渡"——场景缓慢演变,比如从站立到行走,从室内移动到室外。此时旧场景记忆与新场景高度兼容,差异感知衰减几乎不触发,历史记忆被大量保留,确保过渡的自然感。
第三种是"硬切换"——就像电影里的蒙太奇,场景突然跳到完全不同的地点或时间。此时旧场景背景与新场景高度冲突,差异感知衰减强力介入,迅速清除不兼容的旧背景记忆,同时保留角色相关的记忆以维持人物一致性。位置编码也相应被赋予较大的时间偏移(45帧),在视觉上制造明确的断点感。
第四种是"长距离场景召回"——如前文提到的A-B-C-A-B-C结构,后半段需要精确复现前半段的各个场景。场景召回帧池在此大显身手,被访问过的每个场景都有对应的精华速写存档,需要时直接取用,确保召回场景与原场景的视觉风格、背景构成高度一致,同时支持不同动作和视角的灵活变化。
为了让用户不必手动指定每次切换属于哪种模式,研究团队还设计了一套自动路由机制:系统通过计算新提示词与历史提示词之间的文本相似度,自动判断应该走哪条路径。相似度高且是紧邻场景,走平滑过渡;相似度高但不是紧邻场景,走场景召回;相似度低,走硬切换。用户也可以在提示词后面加上简单标签([10s]表示平滑过渡,[10s#]表示硬切换,[10s@]表示场景召回)来手动指定。
七、实验结果:数字说话,人类眼睛也买账
研究团队在VBench-Long基准上对Echo-Forcing进行了全面评测,涵盖长视频生成和交互式视频生成两大类任务。
在长视频生成方面,研究团队从MovieGenBench中随机抽取了128个提示词用于60秒视频评测,64个提示词用于120秒视频评测,每个提示词用四个不同的随机种子生成视频以减少偶然性。对比的方法包括Self-Forcing、∞-RoPE、Deep-Forcing、Rolling-Sink和LongLive等当前最先进的方案。
结果显示,Echo-Forcing在60秒视频上,美学质量达到61.69(对比方法最高为61.61),背景一致性达到97.17(对比方法最高为96.35),画质评分达到72.09(对比方法最高为71.89)。在120秒更长的视频生成中,优势更为明显:画质评分从对比最优的70.48大幅提升至72.83,运动流畅度达到99.05(所有方法中最高),时序稳定性评分也达到98.33,均位居第一。
在交互式视频生成方面,研究团队为平滑过渡、硬切换和场景召回三种模式各构建了64个六幕60秒视频的评测集。每幕10秒,分别用GPT生成六段相互关联的场景描述作为提示词。
不使用任何微调的情况下,Echo-Forcing在场景召回模式上将文本对齐度从∞-RoPE的29.47提升至32.58,主体一致性从79.31提升至83.11,背景一致性从78.39提升至81.57。在硬切换模式上,文本对齐度达到33.67,高于∞-RoPE的32.63,画质也从67.79提升至69.64。
基于LongLive微调底座的版本进一步验证了Echo-Forcing的有效性:相比LongLive基础版,平滑过渡文本对齐度提升2.39分(27.38→29.77),硬切换提升3.68分(30.59→34.27),场景召回提升4.02分(28.56→32.58)。
自动评测之外,研究团队还邀请了18名普通志愿者进行主观评分。参与者用1到5分的量表对长视频和交互视频分别从文本对齐度、主体一致性、运动流畅度和整体视频质量四个维度进行评价,且不知道各视频对应哪种方法。
在长视频主观评测中,Echo-Forcing在所有维度均获最高分:文本对齐度3.52(对比最优3.24),运动流畅度3.64(对比最优3.16),视频质量3.41(对比最优3.34)。在交互视频主观评测中,Echo-Forcing同样获得最高文本对齐度(3.80)、运动流畅度(3.78)和视频质量(3.68)。
值得关注的是,这些主观评测结果与自动评测结果方向高度一致,说明Echo-Forcing带来的改善不只是数字游戏,而是真实反映在人类观看体验中的质的提升。
八、消融实验:每个设计细节都有充分理由
研究团队对Echo-Forcing中每一个关键设计选择都进行了严谨的消融实验,逐一验证其必要性。
关于双向滚动策略:固定不更新的静态锚点虽然稳定,但动态度极低,动态度评分仅有27.08;单向正向滚动能将动态度提升至42.50,单向反向滚动达到42.08;双向交替滚动在保持动态度47.59(最高)的同时,背景一致性也达到97.17(最高),实现了稳定性与活跃度的最佳平衡。
关于缓存预算分配:当把所有预算都用于锚点(15个锚点,0个压缩帧)时,主体一致性很高但动态度只有41.04;把大量预算给压缩历史(6个锚点,9个压缩帧)时,画质有所提升但时序稳定性下降;默认的12锚点加3压缩帧方案在各指标间取得最佳均衡,尤其是动态度达到47.59,同时保持高背景一致性97.17。
关于漂移门控相位压缩:完全去掉幅度补偿项时,动态度从47.59大幅降至35.31;只使用幅度补偿但不加漂移门时,背景一致性从97.17降至96.13,因为不受限制的幅度补偿会错误放大噪声历史;完整方案(带漂移门的幅度补偿)同时实现了最高的背景一致性97.17、最高的运动流畅度98.79、最高的时序稳定性98.28和最高的动态度47.59。
关于漂移门灵敏度系数λ:λ=1时对漂移反应太迟钝,动态度降至36.35;λ=3时对漂移反应过度,抑制了过多有用的历史信息,动态度降至34.79;λ=2是最佳取值,各项指标均衡最优。
关于场景召回帧的设计:没有任何历史记忆时主体一致性74.97;使用第一帧76.14;使用评分最高的关键单帧76.49;使用融合5帧的Scene Recall Frames方案则大幅提升至83.39。多帧融合的信息增益非常显著。
关于记忆衰减策略:不做衰减时文本对齐度25.74;固定衰减率0.90时26.08;固定衰减率0.75时26.44;固定衰减率0.50时27.34;差异感知自适应衰减达到29.77,比最好的固定衰减高出2.43分,而且同时提升了主体一致性和背景一致性,证明了空间自适应遗忘的根本优越性。
九、计算开销:聪明的设计,克制的代价
Echo-Forcing是一个完全不需要重新训练AI模型的方法(训练免费),这意味着它可以直接插到现有的视频生成系统上使用,无需修改模型权重,也不需要任何额外的训练数据或训练时间,极大降低了实际应用的门槛。
在计算开销方面,Echo-Forcing的额外操作复杂度是O(Ncand + M + B),三项分别对应相位压缩的候选集大小、场景召回候选帧数量和固定缓存预算,均为常数,不随视频总长度增长。也就是说,生成一段5分钟的视频和一段1小时的视频,额外开销完全相同,不会随着视频变长而变重。
与Deep-Forcing相比,Echo-Forcing的压缩历史区域更小(3帧对比9帧),选择方式更轻量,所以在所有使用压缩历史的方法中生成速度最快(15.71帧每秒对比15.65帧每秒)。与LongLive的高速度(20.70帧每秒)相比虽有差距,但LongLive之所以快主要是因为其活跃缓存窗口更小(仅12帧),以更大的长期记忆损失换取了速度,而Echo-Forcing使用完整的21帧本地窗口,提供了更丰富的上下文支持。
归根结底,Echo-Forcing给视频生成领域带来的变化,可以用一句话概括:让AI从一个健忘的讲故事者,进化成了一个有条不紊管理着多层记忆的专业导演。它不仅仅让视频更长,更重要的是让视频真正具备了应对复杂剧情结构的能力——保持稳定的世界观、灵活响应场景切换、精准召回历史场景、妥善清除过时记忆。这套系统的四种交互模式和三重核心机制,构成了一个完整的解决方案,而非对某个单一问题的临时修补。
对于视频创作者来说,这意味着AI生成工具距离"真正能讲故事"的目标又近了一步。对于AI研究者来说,这项工作揭示了一个被长期忽视的关键问题——记忆管理不是一个辅助性问题,而是交互式长视频生成的核心瓶颈,值得被专门、认真地对待。有兴趣深入了解这套系统的读者,可以通过arXiv:2605.16003查阅完整论文,研究团队也已在https://github.com/mingqiangWu/Echo-Forcing公开了代码。
Q&A
Q1:Echo-Forcing需要重新训练AI视频模型吗?
A:不需要。Echo-Forcing是一种完全训练免费的方法,可以直接插到现有的自回归视频生成系统上使用,不修改任何模型权重,也不需要额外的训练数据或训练时间,这让它能够较方便地被应用于已有系统。
Q2:Echo-Forcing支持哪几种视频生成模式?
A:Echo-Forcing支持四种模式:长时程稳定生成(单场景持续生成几分钟以上)、平滑过渡(场景缓慢演变)、硬切换(蒙太奇式场景突变)以及长距离场景召回(回到之前出现过的场景,如A-B-C-A-B-C结构)。用户可以手动打标签指定模式,也可以让系统根据提示词相似度自动判断。
Q3:Echo-Forcing的场景召回帧是什么原理?
A:场景召回帧通过从每个历史场景中选取5帧候选画面,对画面中每个空间位置独立进行加权融合,生成一张兼顾多帧信息的精华速写存入记忆池。需要召回某个场景时直接取用,相比单帧方案,主体一致性评分从76分左右大幅提升至83.39分。





京公网安备 11011402013531号