当前位置: 首页 » 资讯 » 科技头条 » 正文

麻省理工学院与丰田研究院联手:让AI视频"记住"它看过的世界

IP属地 中国·北京 科技行者 时间:2026-06-16 18:24:40


这项由麻省理工学院(MIT)与丰田研究院(Toyota Research Institute)联合开展的研究,以预印本形式发布于2026年6月,论文编号为arXiv:2606.09056,研究成果以MILLIVID为名对外公开,项目主页可通过davidcharatan.com/millivid访问。

**视频AI的"金鱼记忆"困境**

你有没有遇到过这样的情况:和一个人聊着聊着,对方突然忘了你刚才说的话,还煞有介事地重新开始?对于当今最先进的视频生成AI来说,这种尴尬几乎是家常便饭。它们能生成令人叹为观止的短视频片段,但一旦视频变长,画面前后就会出现各种离奇的不一致——房间里的家具凭空消失,走廊里的装饰悄悄换了颜色,甚至整个场景的布局都被"改写"了。

这个问题的根源,可以用一个简单的比喻来理解。假设你是一位画师,老板给了你一张固定大小的画布,要求你把眼前的整条街道全部画下来。街道很长,画布很小,你只能趴在画布上,脸贴着画布,一段一段地往前挪。每次挪动之后,你就再也看不到身后画过的部分了。结果,画到最后,前面画的街景和后面画的几乎成了两个不同的世界。

这正是当前AI视频模型面临的核心挑战:它们的"记忆画布"(也就是计算机科学里说的"序列长度")是固定的,能同时"看到"的视频帧数极为有限。一旦早期的画面滚出这块画布,那些信息就永远消失了。MIT与丰田研究院的研究团队正是针对这一顽疾,提出了一种全新的解决方案——MILLIVID。

**一、固定画布,无限街道:AI视频的根本矛盾**

要真正理解这个问题有多棘手,我们需要先搞清楚AI视频模型是怎么工作的。这类模型的核心是一种叫做"变换器"(Transformer)的结构,它的计算开销会随着需要同时处理的信息量呈平方级增长。换句话说,你把需要处理的内容翻倍,计算量就会变成原来的四倍。

对于视频来说,每一帧画面都会被分割成数百个小方块(专业上叫做"token",可以理解为信息碎片),一段30秒、每秒20帧的视频,按照常见的分辨率设置,光是信息碎片就超过15万个。这个数字远远超过了绝大多数AI系统能够同时处理的上限。

现有的解决方案通常是"分段处理":AI每次只看最近的几帧,生成新的画面之后,就把最早的帧丢掉,再把新的帧加进来。这就好比那位画师被迫戴上了眼罩,每次只能看到面前很短的一段街道,画完就翻篇。效果可想而知——长视频里前后的内容几乎是两个互不相关的故事。

更聪明一点的方法,是让远处的帧"缩小显示",用更少的信息碎片来代表。这类似于把远处的街景拍成小缩略图贴在画布边角,让画师知道大概有什么,但看不清细节。这就是另一个知名方案FramePack的核心思路。然而,研究团队经过实验发现,FramePack存在一个出乎意料的盲点:即便把过去的画面压缩成缩略图保留在记忆里,模型依然经常"忘记"那些曾经出现在镜头里、后来又消失的内容。换句话说,缩略图保留了,但模型学会的是"不用看它"。

正因如此,MIT与丰田研究院的团队决定从更根本的层面入手,提出了两个新的关键洞察,并将它们整合成了MILLIVID这一完整系统。

**二、画布的艺术:粗看远景,细看近景**

MILLIVID的核心思路,其实源自一个非常朴素的生活经验。考虑这样一个场景:你站在一扇窗前,俯瞰一条热闹的街道。远处的建筑,你只需要知道它大概在哪里、是什么颜色、有几层楼——这些粗略的信息足以让你保持对整条街道的整体印象。而近处的行人,你则能看清他们的面孔、衣服上的纽扣、手里拿的是咖啡还是手机。

这种"远粗近细"的感知方式,正是MILLIVID的设计哲学。研究团队认为,视频中不同时间点的画面,对"精细度"的需求是不一样的。刚发生的事情,我们需要清晰地记住每一个细节;而很久以前的场景,只要记住大致的结构和布局就够了,因为如果细节前后不一致,反而没人会注意到——但如果一整栋楼突然消失了,那就太扎眼了。

基于这个洞察,MILLIVID的系统分成两个紧密配合的组件。第一个是"分级自动编码器"(Hierarchical Autoencoder),负责把每一帧画面压缩成不同精细程度的信息碎片。第二个是"由粗到细的视频生成模型",负责在这些分级信息碎片的基础上,按照从粗到细的顺序生成完整的视频。

**三、把画面"装进"不同大小的盒子**

分级自动编码器是MILLIVID技术体系的基础,它的工作原理可以用一套俄罗斯套娃来理解。

每当一帧画面被输入到这个编码器,它首先会被变成一组不同分辨率的版本——就像同一张照片,你既有高清原图,也有中等清晰度的副本,还有模糊的缩略图。这些不同分辨率的版本共同构成一个"图像金字塔"。

接下来,编码器会把这些不同层级的图像分别切割成小方块,然后用一个神经网络(专业上称为Transformer,也就是前面提到的"变换器")统一处理。关键的设计在于:最清晰那一层(称为"级别0")的每帧画面会被切成H×W个信息碎片,而下一层("级别1")因为分辨率减半,每帧只有H/2×W/2个碎片,以此类推。在研究团队的实验设置中,最细的级别有256个信息碎片/帧,而最粗的级别只有4个碎片/帧——整整缩小了64倍。

这套编码器的妙处还不止于此。在训练的时候,研究团队会随机遮住所有级别,只保留其中一个,然后要求解码器仅凭这一个级别的信息来重建整张图片。这种"残酷训练"迫使每一个级别都必须独立地保存尽可能多的、对应分辨率下最重要的视觉信息。最细的级别因为信息碎片最多,能保存纤毫毕现的纹理细节;而最粗的级别虽然只有寥寥几个碎片,也必须努力把场景的整体结构"塞"进去。

研究团队还做了一个对比实验,来证明这种"学来的粗糙"比"简单压缩的粗糙"要好得多。他们训练了另一个对比版本,其中粗糙级别不是由神经网络学习得到的,而是直接对最细级别的信息做均值池化(可以理解为简单地把临近像素求平均,类似于用马赛克覆盖图片)。实验结果非常清晰:均值池化版本产生的粗糙表示非常模糊,关键的场景结构(比如建筑轮廓、物体边界)大量流失;而神经网络学习得到的粗糙表示,即便只有4个信息碎片,依然能清晰地保留场景的宏观布局,只是把纹理和细节省掉了。这就是第一个关键突破:有组织地"忘掉"不重要的东西,而非随机地模糊一切。

**四、生成视频的"时间望远镜"**

有了这套分级表示,下一步就是如何利用它来生成更长、更连贯的视频。

研究团队设计了一种叫做"由粗到细滚动生成"(Coarse-to-Fine Rollout)的策略,可以用拍电影时的拍摄计划来理解。导演在开拍之前,通常会先画出整部电影的粗糙故事板(每一幕只有几个关键镜头),确保全片的叙事逻辑连贯;然后再针对每一幕,设计详细的分镜头;最后到了实际拍摄时,才把每一个细节都落到实处。

MILLIVID的生成流程正是如此。生成的第一步,是在最粗糙的级别(每帧只有4个信息碎片)上,一次性生成尽可能多的未来帧。由于每帧只用4个碎片,固定大小的画布可以同时容纳192帧的粗糙"故事板"。这一步确保了整个视频的大致走向——场景的整体布局、镜头的运动方向——在很远的未来都保持一致。

随后,模型进入第二步,把之前生成的这些粗糙帧,在中等精细度(每帧16个碎片)上逐步细化,一次处理数十帧。此时,模型的画布依然装着同样数量的信息碎片,只不过每帧用了更多碎片,因此能同时处理的帧数相应减少。

最后,模型针对最近的少数几帧,在最精细的级别(每帧256个信息碎片)上补全所有纹理和细节。

在整个流程中,有一个非常关键的设计细节,解决了一个容易被忽视的陷阱。研究团队用了一个绝妙的例子来说明这个陷阱:假设镜头远远地拍着一块路牌,牌子上的字太小看不清,然后镜头慢慢推近,字迹变得清晰。在这个过程中,"路牌上写的什么字"是一个悬而未决的问题,它可以通过"时间推进(镜头推近)"来揭晓,也可以通过"分辨率提升(超分辨率)"来猜测。如果系统的时间推进模块自行猜测路牌写的是"停止",而分辨率提升模块独立猜测写的是"前行",视频里就会出现一块文字自相矛盾的路牌。

为了避免这种不一致,MILLIVID在每一步生成时,都会把"已经生成的最精细画面"和"尚未完全细化的未来粗糙画面"同时放进模型的上下文,让模型在生成细节的时候,始终能"看到"未来的大致走向,从而保证所有细化结果与整体时间脉络相互咬合,不会自相矛盾。

还有一个重要的训练细节:每次生成任务所用到的信息碎片总量,无论是粗糙的长序列还是精细的短序列,都保持相同。这意味着不同类型的生成任务可以被打包在同一个训练批次里高效处理,极大提升了训练效率。

**五、在《我的世界》里测试"记忆力"**

一个好的测试场所,必须满足几个苛刻的条件:视频要足够长(几百帧以上),要有足够多的视频素材来训练模型,而且视频里的内容必须经常"出镜又入镜",这样才能测试模型有没有真正记住看过的东西。此外,还需要能精确控制相机走哪条路——不然你都不知道该去哪里"回头看"。

研究团队发现,现有的数据集几乎无一满足这些条件。于是他们自己动手,用《我的世界》(Minecraft)游戏模拟器创建了一个全新的数据集,并将其命名为LOOPCRAFT。这个数据集包含20万段视频,每段1024帧(对应50秒左右),分辨率为256×256,并记录了每一步的玩家动作和摄像机姿态。

创建数据集时,研究团队设计了一个精妙的轨迹策略:游戏角色在世界里向前跑动,但会周期性地随机转90度弯,而且刻意偏向于连续转两次或四次弯——这意味着角色会经常绕回到之前走过的区域。换句话说,这些视频就像是一个人在一个陌生的小镇里绕圈子,三不五时就会重新经过之前见过的路口和建筑。正是这种"有意为之的重复",使得LOOPCRAFT成为测试长程一致性的理想场所。

测试集的生成也经过了精心设计。研究团队为每个测试视频预先生成100条候选轨迹,通过计算轨迹前256帧与后768帧的空间重叠程度,筛选出重叠度最高的轨迹。这样可以最大程度保证测试时,模型被要求"回忆"的内容确实曾经出现在它的上下文里。

**六、数字会说话:一致性碾压,质量不降**

实验结果展示了相当明确的结论。研究团队从两个维度分别评估了三种方法:MILLIVID(本文提出的方法)、FramePack(目前最相近的先进方案)以及全分辨率自回归滚动(最基础的对比方案)。

评估一致性时,研究团队把模型生成的视频与真实走同一路线的视频逐帧比较,使用了五种不同的指标。PSNR(信噪比,数值越高越好)衡量像素级的精确度,在生成的第1至64帧、65至256帧、257至768帧三个时间段内,MILLIVID的数值分别为21.78、19.13和16.69,而FramePack对应的是19.17、14.08和11.98,全分辨率滚动则更低,分别是17.58、11.95和11.02。LPIPS(感知相似度,数值越低越好)衡量人眼感知层面的差异,MILLIVID在长程段的数值为0.335,远低于FramePack的0.533和全分辨率滚动的0.630。使用DINOv2(一种用于理解图像语义的AI工具)的相似度指标,以及LightGlue关键点匹配数量(衡量两张图里能找到多少个对应的特征点)等更高维度的指标,MILLIVID同样全面领先——尤其是在长时间段内,MILLIVID检测到的关键点匹配数量为62.4,而FramePack只有7.0,全分辨率滚动更是降到了5.0,几乎已经完全"失忆"。

评估视频质量时,研究团队使用了FID(图像生成质量)和FVD(视频生成质量)两个指标,数值越低代表质量越好。MILLIVID在这两个指标上同样全面优于两个基准方法。尤其引人注目的是,随着生成帧数增加,FramePack和全分辨率滚动的FVD会急剧上升(意味着生成质量快速下滑),而MILLIVID的FVD增长则平缓得多,说明它具有更强的"抗遗忘"能力,不会因为时间拉长而在视觉质量上出现雪崩式的崩溃。

在定性对比图中,这种差距更加直观。从一个俯视视角追踪角色的行进轨迹,可以看到:在经过几十帧之后,FramePack和全分辨率滚动生成的场景结构已经与真实情况出入甚大,而MILLIVID生成的场景在经过512帧、甚至768帧之后,依然与真实场景保持高度吻合。

**七、深挖设计选择:每一个决策背后的道理**

研究团队并没有止步于展示最终结果,还通过一系列精心设计的消融实验,逐一验证了MILLIVID各个核心设计选择的必要性。

第一个问题是:分级自动编码器里,真正"学来的"粗糙表示,比直接对精细表示做均值池化的朴素压缩强多少?从可视化结果来看,均值池化版本在粗糙级别的重建图像中,树木、建筑的轮廓都变得模糊一片;而学习得到的版本,即便只有4个信息碎片,依然能清晰地区分天空、植被和地面。在下游的视频生成任务中,使用均值池化的"级联版本"在一致性和视频质量上都明显落后于MILLIVID。

第二个问题是:FramePack如果换用MILLIVID的分级潜在空间,会不会也能提升一致性?实验结果出人意料:直接把分级或均值池化的潜在空间嫁接给FramePack,不仅没有提升效果,反而让FramePack的一致性和质量同时下降,某些情况下甚至比随机帧还差,出现了"滚动不稳定"的问题。这说明,分级表示需要与专门设计的生成策略配合才能发挥作用,不能简单移植。

第三个问题是:FramePack拥有255帧的上下文窗口,比全分辨率滚动的7帧多得多,但为什么一致性的提升并没有那么明显?研究团队针对这个现象,还做了一个"镜像FramePack"的对比实验。他们把FramePack的一半序列预算分给"未来粗糙帧的预测",强迫模型在训练时必须做出更长远的预判——尽管这些粗糙的未来帧在推理时会被丢弃。实验结果显示,这个"镜像版本"在某些时间段内比原版FramePack表现更好。研究团队的解释是:如果模型只被训练去预测很短距离的未来,它就会学会一个"懒惰策略"——只看最近的几帧就够了,根本不用费心去理解远处的上下文。而被迫预测远处未来的模型,则必须真正从远处的上下文中提取信息,因此锻炼出了更强的"长程记忆检索"能力。这个发现,与机器人控制领域的研究相呼应:训练机器人策略时,如果只要求它预测短期动作,它同样会养成"只看眼前"的坏习惯。

**八、更快还是更慢?推理效率的真实代价**

采用由粗到细的多轮生成策略,势必会增加推理步骤。研究团队在论文中坦诚地分析了这一代价。

全分辨率自回归滚动,每轮生成固定数量的帧,生成F帧总共需要O(F)步,在测试中生成768帧需要约11分钟。FramePack的机制类似,同样需要O(F)步,但由于上下文更长,每一步处理的信息更多,耗时约30分钟。MILLIVID在最细粒度需要O(F)步,在中等粒度需要O(F/4)步,在最粗粒度需要O(F/16)步,以此类推。由于粗粒度的步数随级别呈指数级减少,总步数依然是O(F)量级,实际耗时也约为30分钟——与FramePack基本持平。具体而言,MILLIVID比FramePack多约33%的采样步骤,意味着一个经过针对性优化的FramePack实现,大约能比MILLIVID快25%。研究团队认为,以不足三分之一的额外时间换取一致性上的大幅提升,这个代价是值得的。

**九、局限与未来:还有哪些路没走完**

研究团队在论文中也坦率地指出了MILLIVID当前的主要局限。最核心的一点是:MILLIVID的分级编码体系需要从头训练,无法直接嫁接到WAN、Hunyuan Video等已经大规模预训练好的商业视频生成模型上。这意味着要真正发挥MILLIVID的优势,需要为分级自动编码器重新配套训练整个生成模型,成本不低。

研究团队建议,未来的工作可以探索一种"蒸馏"方案:先训练一个分级编码器,使其最精细级别的表示尽可能接近现有大模型的潜在空间,然后在此基础上微调大模型的生成能力,使其支持分级上下文。这样或许能以较低的代价,将长程一致性能力移植到已有的大模型中。

此外,MILLIVID目前的设计是纯粹依靠分级层次来延伸上下文,没有任何检索机制。研究团队指出,这两种思路并非互斥——未来完全可以在MILLIVID的框架之上,叠加一个检索模块,专门处理那些连最粗级别也无法覆盖到的超远距离历史信息。换句话说,MILLIVID解决了"固定画布内如何最大化记忆范围"的问题,而检索机制则可以进一步打破画布的边界,两者结合有望实现更接近无限长程一致性的视频生成。

说到底,MILLIVID解决的问题,表面上是一个AI技术难题,本质上是一个关于"如何在有限资源下做出最聪明的取舍"的问题。研究团队的答案是:不要试图把所有东西都记得同样清楚,而是聪明地决定什么值得记清楚、什么可以模糊地记着——远处的轮廓,近处的细节,这才是我们人类感知世界的自然方式。

对于普通用户来说,这项研究的潜在影响是具体可感的。未来的游戏AI、影视特效生成、虚拟旅游体验,乃至机器人对周围环境的持续认知,都可能受益于这类长程一致性技术。一个不会"忘记"自己曾经见过什么的AI,无论是作为游戏世界的构建者还是作为现实世界的感知者,都将会有质的不同。

对这项研究感兴趣的读者,可以通过arXiv编号2606.09056找到完整论文,项目主页davidcharatan.com/millivid还提供了完整的视频演示,那些用文字难以完全传达的视觉对比效果,在视频里会更加一目了然。

Q&A

Q1:MILLIVID是怎么解决视频AI"记性不好"这个问题的?

A:MILLIVID的核心思路是把每一帧画面同时编码成粗细不同的多个版本——粗版本只用几个信息碎片,细版本则保留完整细节。生成时先用粗版本覆盖很长的时间范围(确保场景结构一致),再用细版本补充近期帧的纹理细节。这样在固定的"记忆容量"内,就能同时维持远期的宏观一致性和近期的高质量画面,避免了传统方案"顾了眼前忘了从前"的问题。

Q2:LOOPCRAFT数据集为什么要用《我的世界》来测试长程一致性?

A:现有的视频数据集基本不满足测试长程一致性所需的条件——要么视频太短,要么缺乏精确的动作控制,要么场景里的内容很少"出镜又入镜"。《我的世界》的优势在于:可以精确控制角色行动路径,可以大批量生成超长视频,而且通过设计绕圈轨迹,能让角色频繁回到之前见过的地方,天然适合测试"模型有没有真正记住之前看过什么"。

Q3:FramePack明明也有很长的上下文窗口,为什么一致性还是不如MILLIVID?

A:FramePack虽然保留了大量过去帧的压缩版本,但它的训练方式只要求模型预测很短的未来,导致模型养成了"只看最近几帧就行"的习惯,对远处的上下文视而不见。MILLIVID通过强制模型先在粗粒度上生成完整的长序列,真正让模型学会从远处历史信息中提取需要保持一致的内容,而不是每次只盯着最近的画面。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。