当前位置: 首页 » 资讯 » 科技头条 » 正文

谷歌DeepMind让AI看懂长视频的速度快了35%

IP属地 中国·北京 编辑:赵云飞 科技行者 时间:2026-05-26 00:24:59

这项由谷歌DeepMind与首尔国立大学联合开展的研究,以预印本论文形式发布于2026年5月,论文编号为arXiv:2605.17260,感兴趣的读者可通过该编号查询完整内容。

一个你可能没有意识到的事实是:当你把一段两小时的电影交给AI去理解时,它面临的挑战,就像让一个人在一秒钟内同时读完一整本书。现在的视频AI助手,在处理长视频时会遇到一道几乎无法逾越的计算墙。这篇研究的价值,就在于它找到了一条绕过这堵墙的新路。

**一、那堵让AI头疼的"计算墙"**

当前主流的视频AI系统,在架构上几乎都遵循同一个流程:先用一个"视觉编码器"(可以理解为AI的眼睛)逐帧扫描视频画面,将每一帧图像转换成一堆数字信号;再把这些数字信号交给一个大型语言模型(也就是AI的大脑)进行理解和推理。问题在于,视频是由无数帧画面组成的,帧数越多,传递给AI大脑的数字信息就越庞大,大脑处理起来就越慢。

研究团队把这个问题比作一场"计算量的爆炸"。具体来说,视频帧数每翻一倍,视觉编码器和语言模型都要承受更多的工作量。更麻烦的是,语言模型处理信息的方式存在一个"平方级"的复杂度——信息量增加一倍,处理难度大约会增加到原来的四倍。这就是为什么现有的视频AI,比如他们实验使用的InternVL3-8B,在实际应用中最多只能处理约64帧画面,超过这个上限,系统就会变得极其缓慢乃至崩溃。

**二、"头疼医脚"的旧方法为何行不通**

面对这堵墙,过去的研究者们想到了一个看起来很聪明的办法:既然语言模型是瓶颈,那就在把信息交给它之前,先把信息压缩一下,减少输入量。这类方法被研究团队称为"事后削减"(post-hoc token reduction)——先让视觉编码器把每一帧都完整扫描一遍,生成大量"视觉令牌"(可以理解为对图像内容的数字描述),然后再通过各种技术手段删减其中重复或不重要的部分,最后才把精简后的内容送给语言模型处理。

这个方法确实有效地减轻了语言模型的负担。然而,谷歌DeepMind的研究团队发现了一个被广泛忽略的问题:当语言模型的压力减少之后,整个系统的速度瓶颈并没有消失,而是悄悄地转移了——它跑到了视觉编码器那边。

道理其实很简单:无论后期怎么削减信息,视觉编码器依然需要把每一帧画面都完整地扫描一遍。当你为了提高效率而处理更多帧时,视觉编码器消耗的时间就会线性增长,最终成为新的拖累。研究团队用实验数据清楚地展示了这一现象:在使用16倍压缩率削减视觉信息之后,语言模型的负担大幅降低,但视觉编码器的耗时开始主导整体延迟,随着帧数增加,总体速度反而越来越慢。换句话说,旧方法治好了头疼,却引发了脚疼。

**三、一个关键发现:帧数越多,效果越好**

在提出解决方案之前,研究团队还做了一件重要的事:他们系统地测量了"看更多帧"对AI理解能力的提升效果。结果非常明确——在Video-MME、MLVU和LongVideoBench等多个主流长视频理解测试集上,AI的准确率随输入帧数的增加而呈现出清晰的对数增长趋势。简单说就是:帧数从1帧增加到2帧的提升,比从32帧增加到64帧的提升要大得多,但整体方向是一致向上的,越多越好。

这个发现意味着,如果能找到一种方法,让AI在同样的计算预算内处理更多帧,效果就会更好。这个思路,直接催生了LiteFrame的设计哲学。

**四、一个巧妙的前期验证:加权平均池化**

在正式推出主角之前,研究团队先做了一项有趣的前期工作。他们研究了各种现有的"信息压缩"方法,看看哪种方式在削减视觉信息时能保留最多有用内容。

他们提出了一种叫做"加权平均池化"(Weighted Average Pooling,简称WAP)的方法,原理并不复杂。将视频帧在时间和空间上划分成小块,然后在每个小块内,根据各个像素区域的"重要程度"来决定保留多少信息,重要的地方多保留一点,不重要的地方少保留一点。重要程度的判断,则来自图像本身的一种全局特征信号(即每帧图像的"类别令牌",是ViT模型处理图像时自动生成的一个综合性特征向量)。

研究团队将WAP与多种现有方法进行了对比,包括简单的平均采样、最大值采样、随机抽帧,以及学界常用的ToMe、PruMerge、FastVID等更复杂的算法。在16倍压缩比(空间4倍、时间4倍)的条件下,WAP的平均准确率达到62.0%,显著优于所有对比方法。更重要的是,研究团队随后验证了一件事:在固定的视觉信息总量(令牌数量)不变的前提下,使用16倍WAP压缩后让模型处理16倍数量的帧,比不压缩只处理原来帧数的效果要好得多。这证明了"用压缩换帧数"是一笔划算的买卖。

然而,WAP是一种"事后处理"的方法,它依然解决不了视觉编码器的效率问题。于是,真正的主角登场了。

**五、LiteFrame:把"聪明的眼睛"直接换掉**

LiteFrame的核心思路,可以用一个直观的类比来理解:旧方法好比让一位速读极差的助手把整本书完整读完,然后再请一个人从他整理的笔记中删去重复内容,最后交给老板审阅。而LiteFrame的思路是:直接训练出一位天生擅长"快速抓重点"的助手,他扫描书的速度更快,而且读完之后直接给出精简后的摘要,中间那道删减步骤完全省去。

具体来说,LiteFrame是一个全新训练的视觉编码器,它比原来的"大眼睛"(InternViT-300M,约3亿参数)体积轻巧得多——只有约8700万参数,仅相当于原来的29%。这个"小眼睛"不仅更快,而且在架构上做了针对视频的特殊设计:它的输出天生就是经过压缩的精华信息,不再是冗余的完整信息流。

这个"小眼睛"在结构上有两个关键创新。第一个是"深度可分离一维时间卷积"(Depth-Wise Temporal Convolution)。普通的视觉编码器只处理单张图像的空间信息,而这个模块专门负责在不同帧之间寻找规律——如果相邻两帧的画面几乎没有变化(比如对话场景中说话人的背景),它就会把这部分重复信息合并掉,不再重复记录。这种处理方式的计算成本极低,比同样效果的注意力机制(另一种建立帧间联系的常用方法)快得多。研究团队对比了多种时间建模方案:普通时间注意力(TempAttn)的延迟为348毫秒,全时空注意力(SpatioTempAttn)为204毫秒,普通时间卷积(TempConv)为202毫秒,而深度可分离时间卷积(DWTempConv)仅需175毫秒,同时计算量与全时空注意力相当(约17.92万亿次浮点运算),参数量仅增加不到100万。

第二个关键设计是"渐进式压缩"。在编码器处理图像的过程中,研究团队在第4层和第8层分别插入了"步进卷积层",专门用于逐步缩减特征图的分辨率——第4层后同时在时间、高度、宽度三个维度各缩减一半,第8层后再在时间维度缩减一半。这样一来,网络越到后面,需要处理的数据量就越少,计算效率自然越高。最终,原来每帧256个视觉令牌,经过LiteFrame处理后只剩下16个。

**六、如何训练出这双"聪明的眼睛"——压缩令牌蒸馏**

拥有了合理的架构,接下来的挑战是:如何训练这个小模型,让它在输出如此精简的信息时,还能保留原来大模型的理解能力?

这就是"压缩令牌蒸馏"(Compressed Token Distillation,CTD)的作用。在机器学习领域,"知识蒸馏"是一种让小模型向大模型学习的常用手段——小模型(学生)尽量让自己的输出与大模型(教师)的输出保持一致,从而继承大模型的能力。传统的蒸馏方式是让学生直接模仿教师的完整输出,但问题在于,教师输出的是256个令牌的丰富信息,而学生只能输出16个令牌,这就像让一个只有16格储物柜的学生,去复制拥有256格储物柜的老师的全部内容,显然行不通。

CTD的聪明之处在于:它把WAP直接"嵌入"到训练目标里。训练时,先让教师(大视觉编码器)处理一段视频,得到256个令牌;然后用WAP把这256个令牌压缩成16个"精华令牌";最后,让学生直接学习预测这16个精华令牌,而不是原来的256个完整令牌。

训练目标非常简单:计算学生的16个输出令牌与WAP压缩后的教师16个令牌之间的均方误差(MSE),让两者尽量接近。用数学符号表达就是:最小化学生输出 S_θ(x) 与教师输出经WAP压缩后的 P(T(x)) 之间的L2范数平方。

这个设计的妙处在于:WAP在压缩教师特征时,会优先保留各区域中"重要程度高"的信息(即与图像全局特征最相关的内容)。学生通过学习这些精华令牌,等于把WAP"如何判断重要性"这种能力内化到了自身的网络权重里,从而在推理时不需要任何额外计算,就能直接输出高质量的精简特征。

研究团队还探索了一种替代方案,叫"重构令牌蒸馏"(Reconstructive Token Distillation,RTD)。RTD的思路是让学生学习一种"自动编码"能力——先把视频压缩成16个令牌,再用额外的解码器把这16个令牌还原成教师的完整256个令牌,以此来训练学生保留足够多的信息。然而实验结果表明,RTD的效果远不如CTD:在128帧、256帧条件下,CTD的平均准确率分别为62.8%和64.1%,而RTD+LMA组合才只有61.5%和63.1%,CTD不加任何语言模型适配的效果就已经超过了RTD加上适配后的最好成绩。这说明,明确告诉学生"你要学的是这种精华信息",比让它自己摸索"什么信息是重要的"要有效得多。

**七、最后一步:让AI大脑适应新眼睛——语言模型适配**

训练好LiteFrame之后,还有一个问题:现有的语言模型(AI的大脑)是配合原来的大视觉编码器训练的,它习惯了接收256个令牌的输入格式。现在突然换成了16个令牌,大脑可能会不适应,就像一个习惯用电脑打字的人,突然被要求用算盘计算,效率可能反而下降。

语言模型适配(Language Model Adaptation,LMA)解决的正是这个问题。研究团队用视频与文字配对的数据,对语言模型进行了一轮轻量级微调(采用LoRA技术,只调整极少量的参数:秩设为4,缩放因子为8),让它逐渐习惯LiteFrame输出的新格式,以及更长的时间序列(训练时覆盖了128帧、256帧、512帧三种场景)。整个LMA阶段在8块H100 GPU上只需数小时即可完成,非常高效。

值得一提的是,研究团队发现LoRA的秩设置非常关键:较低的秩(如4)比较高的秩(如8或16)效果更好,这表明语言模型只需要做小幅度的调整就能适应新的编码器输出。

**八、实验结果:新的效率-准确率边界**

把所有组件整合在一起,LiteFrame的表现令人信服。核心对比结果如下:

与作为基准的InternVL3-8B(使用原始304M参数视觉编码器,处理16帧)相比,在相当于其8倍帧数(即128帧)的条件下,LiteFrame将端到端延迟从403.6毫秒压缩到了272.6毫秒,降低了32.5%,同时平均准确率从62.2%提升到了63.7%。在更高帧数(256帧,相当于基准的8倍处理量)时,延迟从814.5毫秒降至532.3毫秒,降低了34.6%,准确率则从65.3%微升至65.7%。最极端的对比是在8帧(基准的配置)与64帧(LiteFrame的配置)之间:基准总延迟208.4毫秒,LiteFrame在处理8倍帧数的情况下,总延迟反而只有150.1毫秒,降低了28%,准确率从59.0%大幅提升到61.1%。

延迟的构成细节同样值得关注:在64帧条件下,LiteFrame的视觉编码耗时仅54.8毫秒,而使用原始视觉编码器+16倍事后压缩的FastVID方法,同样处理64帧时视觉编码就耗时161.7毫秒,两者相差约3倍。这正是"从源头压缩"与"事后压缩"的本质差异。

与另一个同样尝试同时解决视觉编码器和语言模型瓶颈的方法AutoGaze相比,LiteFrame的优势更为显著。AutoGaze需要一个额外的"预筛选模块"在视觉编码器处理之前先过滤帧,这个模块本身就占用了大量计算时间——在256帧条件下,AutoGaze总延迟高达6106.5毫秒,其中预筛选模块就耗费了2961.4毫秒,接近一半。而LiteFrame在同等条件下总延迟仅532.3毫秒,不到AutoGaze的十分之一,准确率还更高(65.7% vs 63.1%)。

此外,研究团队还在另外两类场景下验证了LiteFrame的效果。在短视频测试集(MVBench和TVBench)上,LiteFrame分别实现了28%和63%的延迟降低,准确率与基准持平。这表明该方法不仅适用于长视频,对短视频同样友好。在高分辨率视频理解方面(HLVid测试集),研究团队利用LiteFrame的令牌高效性,实现了一种零样本的高分辨率处理策略:将高分辨率帧切分成多个448像素的小块分别处理,这使得模型在保持足够帧数的同时,还能兼顾空间细节。最终在2688像素、48帧的配置下,LiteFrame在HLVid上取得了54.1分的成绩,超越了需要3584像素和1024帧才能达到52.6分的AutoGaze方法,而且LiteFrame从未用过高分辨率数据训练,这个零样本泛化能力相当突出。

**九、逐层剥开:每个设计的贡献有多大**

研究团队还做了系统的消融实验,一步一步拆解各个组件的贡献,结果可以让我们清楚地看到每个设计究竟值多少分。

基准线是InternVL3-8B处理16帧,延迟403.6毫秒,准确率62.2%。如果只是把大视觉编码器蒸馏到小的ViT-Base-12L,但不做任何令牌压缩,延迟降到了362.9毫秒(节省不多),准确率反而跌至60.3%,还不如原来——主要原因是小模型本身能力弱,而且语言模型还在被大量令牌拖累,处理的帧数仍被限制在16帧。

加入压缩令牌架构(TokComp)但用全时空注意力(而非深度可分离卷积),配合CTD训练,处理128帧时延迟降到102.2毫秒,准确率61.9%,已经接近基准了,但用的是8倍帧数、4分之1的延迟。换成深度可分离时间卷积(DWTempConv),延迟进一步降到87.4毫秒,准确率也小幅提升到62.8%。去掉WAP目标(换成重构蒸馏RTD),准确率暴跌至43.8%,足见WAP目标的核心价值。加回WAP目标(CTD),准确率恢复到62.8%。最后加上LMA,准确率达到63.4%,延迟维持在87.4毫秒——这就是最终的LiteFrame配置,用87.4毫秒的延迟和128帧的覆盖,超越了403.6毫秒+16帧的基准。

**十、这项研究的边界与未来**

研究团队也坦诚地指出了当前工作的几处局限。LMA阶段所用的训练数据是已有视频数据集的子集,如果能引入更多极长视频的高质量数据,模型在处理几百帧乃至上千帧视频时的效果或许还能进一步提升,而无需改动任何架构设计。此外,由于整个项目的出发点是解决视频理解的时间帧数瓶颈,团队没有在纯静态图像测试集上评估LiteFrame,这部分的性能尚不明朗。另一个未完成的方向是继续缩小学生模型的规模——尝试训练比87M参数更小的编码器时,团队遭遇了训练不稳定(损失爆炸)的问题,如何让CTD框架在更极端的压缩比下稳定工作,是一个值得深入探索的问题。

归根结底,这项研究最重要的贡献不仅是一个具体的模型,而是一种思维方式的转变:与其在视觉编码器输出之后做各种削减,不如直接训练出一个天生就能高效输出精简信息的编码器。就像与其雇一个员工先写完长篇报告再请人删改,不如直接培养一位能快速写出精准简报的员工。这个"内化压缩"的理念,给未来的视频AI效率研究指出了一个此前被忽视的方向。

对于普通用户而言,这项研究意味着未来的AI视频助手不仅能处理更长的视频,而且响应速度会更快,运行成本也更低。这对于监控录像分析、长视频内容审核、教育视频智能问答等实际应用场景都有直接的推动意义。有意深入了解技术细节的读者,可以通过编号arXiv:2605.17260获取完整论文。

---

Q&A

Q1:LiteFrame是什么,它和普通视频AI有什么不同?

A:LiteFrame是谷歌DeepMind与首尔国立大学联合开发的一种视觉编码器,专门用于处理视频画面。与普通视频AI先完整扫描每一帧再事后删减信息的方式不同,LiteFrame在扫描阶段就直接输出压缩后的精华信息,每帧只生成16个视觉令牌(而非传统的256个),从而同时减轻视觉编码器和语言模型两端的计算负担,实现在更低延迟下处理更多帧的效果。

Q2:压缩令牌蒸馏(CTD)是怎么训练LiteFrame的?

A:CTD的训练方式是让LiteFrame(学生模型)去预测一个"精华答案":先让大型教师模型处理视频得到256个令牌,再用加权平均池化(WAP)将这256个令牌压缩成16个精华令牌,最后让LiteFrame直接学习输出这16个精华令牌。这样LiteFrame就把"如何判断哪些信息重要"的能力内化到了自身参数中,推理时无需额外计算。

Q3:LiteFrame比普通的事后削减方法快多少,准确率有没有损失?

A:在处理256帧视频时,LiteFrame总延迟为532.3毫秒,比同样帧数下使用FastVID事后削减方法的794.9毫秒快约33%,比原始基准InternVL3-8B处理32帧的814.5毫秒也快了约35%,同时平均准确率从65.3%微升至65.7%。也就是说,LiteFrame在处理8倍更多帧的同时,速度更快,准确率也略有提升,没有因为压缩而损失性能。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。