谷歌DeepMind让AI看懂长视频的速度快了35%

IP属地中国·北京 编辑：赵云飞科技行者 时间：2026-05-26 00:24:59

这项由谷歌DeepMind与首尔国立大学联合开展的研究，以预印本论文形式发布于2026年5月，论文编号为arXiv:2605.17260，感兴趣的读者可通过该编号查询完整内容。
一个你可能没有意识到的事实是：当你把一段两小时的电影交给AI去理解时，它面临的挑战，就像让一个人在一秒钟内同时读完一整本书。现在的视频AI助手，在处理长视频时会遇到一道几乎无法逾越的计算墙。这篇研究的价值，就在于它找到了一条绕过这堵墙的新路。
**一、那堵让AI头疼的"计算墙"**
当前主流的视频AI系统，在架构上几乎都遵循同一个流程：先用一个"视觉编码器"（可以理解为AI的眼睛）逐帧扫描视频画面，将每一帧图像转换成一堆数字信号；再把这些数字信号交给一个大型语言模型（也就是AI的大脑）进行理解和推理。问题在于，视频是由无数帧画面组成的，帧数越多，传递给AI大脑的数字信息就越庞大，大脑处理起来就越慢。
研究团队把这个问题比作一场"计算量的爆炸"。具体来说，视频帧数每翻一倍，视觉编码器和语言模型都要承受更多的工作量。更麻烦的是，语言模型处理信息的方式存在一个"平方级"的复杂度——信息量增加一倍，处理难度大约会增加到原来的四倍。这就是为什么现有的视频AI，比如他们实验使用的InternVL3-8B，在实际应用中最多只能处理约64帧画面，超过这个上限，系统就会变得极其缓慢乃至崩溃。
**二、"头疼医脚"的旧方法为何行不通**
面对这堵墙，过去的研究者们想到了一个看起来很聪明的办法：既然语言模型是瓶颈，那就在把信息交给它之前，先把信息压缩一下，减少输入量。这类方法被研究团队称为"事后削减"（post-hoc token reduction）——先让视觉编码器把每一帧都完整扫描一遍，生成大量"视觉令牌"（可以理解为对图像内容的数字描述），然后再通过各种技术手段删减其中重复或不重要的部分，最后才把精简后的内容送给语言模型处理。
这个方法确实有效地减轻了语言模型的负担。然而，谷歌DeepMind的研究团队发现了一个被广泛忽略的问题：当语言模型的压力减少之后，整个系统的速度瓶颈并没有消失，而是悄悄地转移了——它跑到了视觉编码器那边。
道理其实很简单：无论后期怎么削减信息，视觉编码器依然需要把每一帧画面都完整地扫描一遍。当你为了提高效率而处理更多帧时，视觉编码器消耗的时间就会线性增长，最终成为新的拖累。研究团队用实验数据清楚地展示了这一现象：在使用16倍压缩率削减视觉信息之后，语言模型的负担大幅降低，但视觉编码器的耗时开始主导整体延迟，随着帧数增加，总体速度反而越来越慢。换句话说，旧方法治好了头疼，却引发了脚疼。
**三、一个关键发现：帧数越多，效果越好**
在提出解决方案之前，研究团队还做了一件重要的事：他们系统地测量了"看更多帧"对AI理解能力的提升效果。结果非常明确——在Video-MME、MLVU和LongVideoBench等多个主流长视频理解测试集上，AI的准确率随输入帧数的增加而呈现出清晰的对数增长趋势。简单说就是：帧数从1帧增加到2帧的提升，比从32帧增加到64帧的提升要大得多，但整体方向是一致向上的，越多越好。
这个发现意味着，如果能找到一种方法，让AI在同样的计算预算内处理更多帧，效果就会更好。这个思路，直接催生了LiteFrame的设计哲学。
**四、一个巧妙的前期验证：加权平均池化**
在正式推出主角之前，研究团队先做了一项有趣的前期工作。他们研究了各种现有的"信息压缩"方法，看看哪种方式在削减视觉信息时能保留最多有用内容。
他们提出了一种叫做"加权平均池化"（Weighted Average Pooling，简称WAP）的方法，原理并不复杂。将视频帧在时间和空间上划分成小块，然后在每个小块内，根据各个像素区域的"重要程度"来决定保留多少信息，重要的地方多保留一点，不重要的地方少保留一点。重要程度的判断，则来自图像本身的一种全局特征信号（即每帧图像的"类别令牌"，是ViT模型处理图像时自动生成的一个综合性特征向量）。
研究团队将WAP与多种现有方法进行了对比，包括简单的平均采样、最大值采样、随机抽帧，以及学界常用的ToMe、PruMerge、FastVID等更复杂的算法。在16倍压缩比（空间4倍、时间4倍）的条件下，WAP的平均准确率达到62.0%，显著优于所有对比方法。更重要的是，研究团队随后验证了一件事：在固定的视觉信息总量（令牌数量）不变的前提下，使用16倍WAP压缩后让模型处理16倍数量的帧，比不压缩只处理原来帧数的效果要好得多。这证明了"用压缩换帧数"是一笔划算的买卖。
然而，WAP是一种"事后处理"的方法，它依然解决不了视觉编码器的效率问题。于是，真正的主角登场了。
**五、LiteFrame：把"聪明的眼睛"直接换掉**
LiteFrame的核心思路，可以用一个直观的类比来理解：旧方法好比让一位速读极差的助手把整本书完整读完，然后再请一个人从他整理的笔记中删去重复内容，最后交给老板审阅。而LiteFrame的思路是：直接训练出一位天生擅长"快速抓重点"的助手，他扫描书的速度更快，而且读完之后直接给出精简后的摘要，中间那道删减步骤完全省去。
具体来说，LiteFrame是一个全新训练的视觉编码器，它比原来的"大眼睛"（InternViT-300M，约3亿参数）体积轻巧得多——只有约8700万参数，仅相当于原来的29%。这个"小眼睛"不仅更快，而且在架构上做了针对视频的特殊设计：它的输出天生就是经过压缩的精华信息，不再是冗余的完整信息流。
这个"小眼睛"在结构上有两个关键创新。第一个是"深度可分离一维时间卷积"（Depth-Wise Temporal Convolution）。普通的视觉编码器只处理单张图像的空间信息，而这个模块专门负责在不同帧之间寻找规律——如果相邻两帧的画面几乎没有变化（比如对话场景中说话人的背景），它就会把这部分重复信息合并掉，不再重复记录。这种处理方式的计算成本极低，比同样效果的注意力机制（另一种建立帧间联系的常用方法）快得多。研究团队对比了多种时间建模方案：普通时间注意力（TempAttn）的延迟为348毫秒，全时空注意力（SpatioTempAttn）为204毫秒，普通时间卷积（TempConv）为202毫秒，而深度可分离时间卷积（DWTempConv）仅需175毫秒，同时计算量与全时空注意力相当（约17.92万亿次浮点运算），参数量仅增加不到100万。
第二个关键设计是"渐进式压缩"。在编码器处理图像的过程中，研究团队在第4层和第8层分别插入了"步进卷积层"，专门用于逐步缩减特征图的分辨率——第4层后同时在时间、高度、宽度三个维度各缩减一半，第8层后再在时间维度缩减一半。这样一来，网络越到后面，需要处理的数据量就越少，计算效率自然越高。最终，原来每帧256个视觉令牌，经过LiteFrame处理后只剩下16个。
**六、如何训练出这双"聪明的眼睛"——压缩令牌蒸馏**
拥有了合理的架构，接下来的挑战是：如何训练这个小模型，让它在输出如此精简的信息时，还能保留原来大模型的理解能力？
这就是"压缩令牌蒸馏"（Compressed Token Distillation，CTD）的作用。在机器学习领域，"知识蒸馏"是一种让小模型向大模型学习的常用手段——小模型（学生）尽量让自己的输出与大模型（教师）的输出保持一致，从而继承大模型的能力。传统的蒸馏方式是让学生直接模仿教师的完整输出，但问题在于，教师输出的是256个令牌的丰富信息，而学生只能输出16个令牌，这就像让一个只有16格储物柜的学生，去复制拥有256格储物柜的老师的全部内容，显然行不通。
CTD的聪明之处在于：它把WAP直接"嵌入"到训练目标里。训练时，先让教师（大视觉编码器）处理一段视频，得到256个令牌；然后用WAP把这256个令牌压缩成16个"精华令牌"；最后，让学生直接学习预测这16个精华令牌，而不是原来的256个完整令牌。
训练目标非常简单：计算学生的16个输出令牌与WAP压缩后的教师16个令牌之间的均方误差（MSE），让两者尽量接近。用数学符号表达就是：最小化学生输出 S_θ(x) 与教师输出经WAP压缩后的 P(T(x)) 之间的L2范数平方。
这个设计的妙处在于：WAP在压缩教师特征时，会优先保留各区域中"重要程度高"的信息（即与图像全局特征最相关的内容）。学生通过学习这些精华令牌，等于把WAP"如何判断重要性"这种能力内化到了自身的网络权重里，从而在推理时不需要任何额外计算，就能直接输出高质量的精简特征。
研究团队还探索了一种替代方案，叫"重构令牌蒸馏"（Reconstructive Token Distillation，RTD）。RTD的思路是让学生学习一种"自动编码"能力——先把视频压缩成16个令牌，再用额外的解码器把这16个令牌还原成教师的完整256个令牌，以此来训练学生保留足够多的信息。然而实验结果表明，RTD的效果远不如CTD：在128帧、256帧条件下，CTD的平均准确率分别为62.8%和64.1%，而RTD+LMA组合才只有61.5%和63.1%，CTD不加任何语言模型适配的效果就已经超过了RTD加上适配后的最好成绩。这说明，明确告诉学生"你要学的是这种精华信息"，比让它自己摸索"什么信息是重要的"要有效得多。
**七、最后一步：让AI大脑适应新眼睛——语言模型适配**
训练好LiteFrame之后，还有一个问题：现有的语言模型（AI的大脑）是配合原来的大视觉编码器训练的，它习惯了接收256个令牌的输入格式。现在突然换成了16个令牌，大脑可能会不适应，就像一个习惯用电脑打字的人，突然被要求用算盘计算，效率可能反而下降。
语言模型适配（Language Model Adaptation，LMA）解决的正是这个问题。研究团队用视频与文字配对的数据，对语言模型进行了一轮轻量级微调（采用LoRA技术，只调整极少量的参数：秩设为4，缩放因子为8），让它逐渐习惯LiteFrame输出的新格式，以及更长的时间序列（训练时覆盖了128帧、256帧、512帧三种场景）。整个LMA阶段在8块H100 GPU上只需数小时即可完成，非常高效。
值得一提的是，研究团队发现LoRA的秩设置非常关键：较低的秩（如4）比较高的秩（如8或16）效果更好，这表明语言模型只需要做小幅度的调整就能适应新的编码器输出。
**八、实验结果：新的效率-准确率边界**
把所有组件整合在一起，LiteFrame的表现令人信服。核心对比结果如下：
与作为基准的InternVL3-8B（使用原始304M参数视觉编码器，处理16帧）相比，在相当于其8倍帧数（即128帧）的条件下，LiteFrame将端到端延迟从403.6毫秒压缩到了272.6毫秒，降低了32.5%，同时平均准确率从62.2%提升到了63.7%。在更高帧数（256帧，相当于基准的8倍处理量）时，延迟从814.5毫秒降至532.3毫秒，降低了34.6%，准确率则从65.3%微升至65.7%。最极端的对比是在8帧（基准的配置）与64帧（LiteFrame的配置）之间：基准总延迟208.4毫秒，LiteFrame在处理8倍帧数的情况下，总延迟反而只有150.1毫秒，降低了28%，准确率从59.0%大幅提升到61.1%。
延迟的构成细节同样值得关注：在64帧条件下，LiteFrame的视觉编码耗时仅54.8毫秒，而使用原始视觉编码器+16倍事后压缩的FastVID方法，同样处理64帧时视觉编码就耗时161.7毫秒，两者相差约3倍。这正是"从源头压缩"与"事后压缩"的本质差异。
与另一个同样尝试同时解决视觉编码器和语言模型瓶颈的方法AutoGaze相比，LiteFrame的优势更为显著。AutoGaze需要一个额外的"预筛选模块"在视觉编码器处理之前先过滤帧，这个模块本身就占用了大量计算时间——在256帧条件下，AutoGaze总延迟高达6106.5毫秒，其中预筛选模块就耗费了2961.4毫秒，接近一半。而LiteFrame在同等条件下总延迟仅532.3毫秒，不到AutoGaze的十分之一，准确率还更高（65.7% vs 63.1%）。
此外，研究团队还在另外两类场景下验证了LiteFrame的效果。在短视频测试集（MVBench和TVBench）上，LiteFrame分别实现了28%和63%的延迟降低，准确率与基准持平。这表明该方法不仅适用于长视频，对短视频同样友好。在高分辨率视频理解方面（HLVid测试集），研究团队利用LiteFrame的令牌高效性，实现了一种零样本的高分辨率处理策略：将高分辨率帧切分成多个448像素的小块分别处理，这使得模型在保持足够帧数的同时，还能兼顾空间细节。最终在2688像素、48帧的配置下，LiteFrame在HLVid上取得了54.1分的成绩，超越了需要3584像素和1024帧才能达到52.6分的AutoGaze方法，而且LiteFrame从未用过高分辨率数据训练，这个零样本泛化能力相当突出。
**九、逐层剥开：每个设计的贡献有多大**
研究团队还做了系统的消融实验，一步一步拆解各个组件的贡献，结果可以让我们清楚地看到每个设计究竟值多少分。
基准线是InternVL3-8B处理16帧，延迟403.6毫秒，准确率62.2%。如果只是把大视觉编码器蒸馏到小的ViT-Base-12L，但不做任何令牌压缩，延迟降到了362.9毫秒（节省不多），准确率反而跌至60.3%，还不如原来——主要原因是小模型本身能力弱，而且语言模型还在被大量令牌拖累，处理的帧数仍被限制在16帧。
加入压缩令牌架构（TokComp）但用全时空注意力（而非深度可分离卷积），配合CTD训练，处理128帧时延迟降到102.2毫秒，准确率61.9%，已经接近基准了，但用的是8倍帧数、4分之1的延迟。换成深度可分离时间卷积（DWTempConv），延迟进一步降到87.4毫秒，准确率也小幅提升到62.8%。去掉WAP目标（换成重构蒸馏RTD），准确率暴跌至43.8%，足见WAP目标的核心价值。加回WAP目标（CTD），准确率恢复到62.8%。最后加上LMA，准确率达到63.4%，延迟维持在87.4毫秒——这就是最终的LiteFrame配置，用87.4毫秒的延迟和128帧的覆盖，超越了403.6毫秒+16帧的基准。
**十、这项研究的边界与未来**
研究团队也坦诚地指出了当前工作的几处局限。LMA阶段所用的训练数据是已有视频数据集的子集，如果能引入更多极长视频的高质量数据，模型在处理几百帧乃至上千帧视频时的效果或许还能进一步提升，而无需改动任何架构设计。此外，由于整个项目的出发点是解决视频理解的时间帧数瓶颈，团队没有在纯静态图像测试集上评估LiteFrame，这部分的性能尚不明朗。另一个未完成的方向是继续缩小学生模型的规模——尝试训练比87M参数更小的编码器时，团队遭遇了训练不稳定（损失爆炸）的问题，如何让CTD框架在更极端的压缩比下稳定工作，是一个值得深入探索的问题。
归根结底，这项研究最重要的贡献不仅是一个具体的模型，而是一种思维方式的转变：与其在视觉编码器输出之后做各种削减，不如直接训练出一个天生就能高效输出精简信息的编码器。就像与其雇一个员工先写完长篇报告再请人删改，不如直接培养一位能快速写出精准简报的员工。这个"内化压缩"的理念，给未来的视频AI效率研究指出了一个此前被忽视的方向。
对于普通用户而言，这项研究意味着未来的AI视频助手不仅能处理更长的视频，而且响应速度会更快，运行成本也更低。这对于监控录像分析、长视频内容审核、教育视频智能问答等实际应用场景都有直接的推动意义。有意深入了解技术细节的读者，可以通过编号arXiv:2605.17260获取完整论文。
---
Q&A
Q1：LiteFrame是什么，它和普通视频AI有什么不同？
A：LiteFrame是谷歌DeepMind与首尔国立大学联合开发的一种视觉编码器，专门用于处理视频画面。与普通视频AI先完整扫描每一帧再事后删减信息的方式不同，LiteFrame在扫描阶段就直接输出压缩后的精华信息，每帧只生成16个视觉令牌（而非传统的256个），从而同时减轻视觉编码器和语言模型两端的计算负担，实现在更低延迟下处理更多帧的效果。
Q2：压缩令牌蒸馏（CTD）是怎么训练LiteFrame的？
A：CTD的训练方式是让LiteFrame（学生模型）去预测一个"精华答案"：先让大型教师模型处理视频得到256个令牌，再用加权平均池化（WAP）将这256个令牌压缩成16个精华令牌，最后让LiteFrame直接学习输出这16个精华令牌。这样LiteFrame就把"如何判断哪些信息重要"的能力内化到了自身参数中，推理时无需额外计算。
Q3：LiteFrame比普通的事后削减方法快多少，准确率有没有损失？
A：在处理256帧视频时，LiteFrame总延迟为532.3毫秒，比同样帧数下使用FastVID事后削减方法的794.9毫秒快约33%，比原始基准InternVL3-8B处理32帧的814.5毫秒也快了约35%，同时平均准确率从65.3%微升至65.7%。也就是说，LiteFrame在处理8倍更多帧的同时，速度更快，准确率也略有提升，没有因为压缩而损失性能。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

新突破！长晶科技牵头筹建江苏省新型功率半导体重点实验室

臻选纯粮酒轩：互联网3个字，正在重塑我们的“杯中物”

小米机器人实习首秀汽车厂柔性操作成功率近人工且协同

消息称三星SDI在美建设特斯拉Megapack所需ESS电池专用产线

力积电：2026年7月存储晶圆代工报价上调45%，逻辑代工涨价10~15%

REDMI Note 17 Pro发布：1.5K直屏+9000mAh电池，1599元起

全站最新

新突破！长晶科技牵头筹建江苏省新型功率半导体重点实验室

臻选纯粮酒轩：互联网3个字，正在重塑我们的“杯中物”

小米机器人实习首秀汽车厂柔性操作成功率近人工且协同

消息称三星SDI在美建设特斯拉Megapack所需ESS电池专用产线

热门推荐

高德发布通用世界模型工坊ABot-World Studio：内置"任意门"，同时支持交互式视频与3D场景生成

完美世界2026中报预告：《异环》流水亮眼，游戏影视双线布局未来可期

科大讯飞：预计2026年半年度净利润同比增长5%~25%

新突破！长晶科技牵头筹建江苏省新型功率半导体重点实验室

臻选纯粮酒轩：互联网3个字，正在重塑我们的“杯中物”

小米机器人实习首秀汽车厂柔性操作成功率近人工且协同

消息称三星SDI在美建设特斯拉Megapack所需ESS电池专用产线

力积电：2026年7月存储晶圆代工报价上调45%，逻辑代工涨价10~15%

REDMI Note 17 Pro发布：1.5K直屏+9000mAh电池，1599元起

绿通科技上市三年净利缩水八成，溢价17倍斥资亿元再谋跨界收购

茅台半年会定调市场化改革：下沉市场、情绪消费潜力巨大，全面向C端要增量

二季度预亏最高9394万元，克明食品或迎上市最差半年

分化时代到来，三路玩家如何差异化切蛋糕？

国际品牌换本土自营，是高端酒店好出路吗？

要价400亿的灵心巧手，估值比市场规模还大