![]()
这项由香港城市大学与快手技术Kling团队联合完成的研究,发表于2026年6月,论文编号为arXiv:2606.02564,有兴趣深入了解的读者可以通过该编号查询完整论文。
**一、当视频生成模型遭遇"会做不会想"的困境**
先从一个场景说起。假设你给一个非常厉害的画家出了道谜题:把一个紫色圆球沿着迷宫路径移动到绿色终点,路上不能穿越墙壁。这位画家画功一流,每一幅单独的画面都美得令人叫绝——但他从来没学过迷宫规则。结果呢?他画出的连续画面里,紫色球走着走着就穿墙而过,或者干脆消失了,又或者到了最后停在了一个完全错误的地方。画面漂亮,但根本没按规则走。
这恰恰是当前最先进的视频生成模型(可以理解为"AI视频画家")面临的核心困境。这些模型经过海量训练,能生成画质精美、时序连贯的视频,但它们的"优化目标"从来都是"让画面好看",而不是"让逻辑正确"。于是在一些需要遵守规则的推理任务里——比如把彩色方块移动到对应颜色的目标位置,或者在不违反规则的前提下还原一张异常图片——这些模型经常生成视觉上流畅却逻辑上漏洞百出的视频。
这个问题催生了一个很有意思的新研究方向,叫做"用视频来推理"。核心思路是:既然大语言模型可以用文字一步一步推理,视频生成模型能不能用一帧一帧的画面来推理呢?每一帧画面就像推理链条上的一个节点,整个视频就是一条完整的视觉推理轨迹。这个方向确实很有潜力,但问题依然存在——AI画家不懂规则,那怎么办?
**二、前人的两条路:各有各的短板**
研究者们尝试过两种思路来解决这个问题,就像两位助手分别试图帮助这位"不懂规则的画家"。
第一种思路叫"最优样本筛选",也就是让画家多画几遍,然后挑最好的那张。具体做法是同时生成好几个版本的视频,再根据评分选出最符合要求的那个。这确实能减少一些随机性错误,但问题在于:如果画家根本就不理解迷宫规则,不管画多少遍,错误往往是系统性的——每次都在同样的地方穿墙,再多尝试也无济于事。实验数据也印证了这一点,多生成几倍的候选视频,最终得分的提升相当有限,性价比很低。
第二种思路叫"用语言模型当参谋",也就是让一个懂规则、会思考的"文字AI"(视觉语言模型)先分析题目,写出一份文字解题方案,然后把这份方案传达给视频生成模型,让它按方案去画。理论上听起来不错,但实践中却遭遇了"翻译失真"的难题。文字描述天然就很难捕捉到那些精妙的空间位置关系——"把蓝色方块向右移动两格",在文字里清晰,但视频模型在执行时往往走样,要么移错了位置,要么方块形状变了,要么过程中出现了奇怪的中间状态。更何况,如果任务本身就很罕见或者很精细,语言模型也未必能写出一份真正可执行的方案。
这两条路各自的局限,让研究团队意识到:问题的根源不在于"选哪个更好的结果",也不在于"怎么把文字方案写得更详细",而在于能不能直接在视频生成的过程中注入"逻辑纠错"的力量。
**三、一个关键的角色转换:从"顾问"到"监考老师"**
研究团队在这里做了一个核心的思维转换,而这个转换正是整篇论文最有意思的地方。
他们注意到一件事:虽然视觉语言模型(那个"懂规则的文字AI")不善于写出可执行的视频方案,但它却非常擅长看图判断——"这个球有没有穿墙?""最终状态里,球到了绿色终点吗?""画面里的三个方块,形状和颜色有没有发生改变?"对于这类"是不是""对不对"的判断题,视觉语言模型表现得相当出色。
换句话说:这个AI虽然当不了好的"出题老师"(帮你写解法),但完全可以当一个好的"监考老师"(检查你做得对不对)。
基于这个洞察,研究团队提出了一个全新的框架,起名叫"VLM即教师"(VLM-as-Teacher)。在这个框架里,视觉语言模型不再负责写文字方案,而是担任一位严格的考官:它观察视频生成模型生成的视频,判断画面是否符合规则,然后把判断结果转化为一种"纠错信号",直接反馈给视频生成模型,让后者据此调整自己的生成方式。整个过程在每个测试任务中实时发生,无需提前训练,属于"临场学习"。
用更直观的比喻来说:以前的做法是考前让语文老师给数学画家写题解(但语文老师写的题解画家根本照不出来);现在的做法是请一位数学老师在画家画的时候坐在旁边,不断指出"这里错了""那里对了",让画家实时修正。
**四、"临考教练"是怎么工作的——方法细节**
这套"VLM即教师"框架在工程上是怎么实现的呢?整个流程分成两个紧密配合的环节。
第一个环节是"出考题"。给定一个视频推理任务(比如迷宫导航),视觉语言模型会分析任务描述,自动生成一组评判标准,以问答题的形式呈现。这些问题分为两类:一类是"过程监督题",检查视频在中间过程里有没有违规,比如"紫色球在整个过程中有没有保持完整、没有分裂或消失?""紫色球有没有穿过任何一面墙?"另一类是"目标达成题",检查最终结果是否正确,比如"到视频结尾,紫色球和绿色方块有没有重叠在一起?"所有问题都是正向表述的,正确答案统一是"是的"。
这种设计有个巧妙之处:不同的任务会自动生成不同的考题,而不是用一套通用的笼统标准去评判所有任务。毕竟,迷宫任务的关键规则和颜色排序任务的关键规则完全不同,用同一套"通用问卷"往往抓不住真正的要点。
第二个环节是"在线优化"。视频生成模型(配备了一个叫做LoRA的轻量级"插件模块")先快速生成一个初步的视频预测结果,然后把这个预测结果交给视觉语言模型考官去回答那些考题。考官给出回答后,系统会计算"考官有多大把握说这些答案是'是'"——把握越低,说明视频越有问题。这个"把握程度"的倒数就变成了优化信号,通过数学上的反向传播(可以理解为把"哪里错了"的信息一层一层往回传递),专门调整那个轻量级LoRA插件的参数。调整完之后,视频生成模型再生成一次,再让考官打分,再调整,如此循环。当考官的评分高到一定程度(也就是对所有考题的"是"答案都有足够把握),或者循环次数达到上限,优化停止,最终用优化后的模型生成正式的结果视频。
整个过程中,视频生成模型的原始参数和视觉语言模型的参数都保持不变,只有那个小小的LoRA插件在针对这个特定任务做调整。这意味着每次优化都是高度个性化的——针对这道题,专门调整,用完即止,不影响下一道题。
**五、让优化变得实际可行的三个工程巧思**
如果直接按上面的思路实现,计算量会大得惊人。每一轮优化都需要完整地生成一个视频,然后用视觉语言模型逐帧分析,这在时间和算力上都难以承受。研究团队为此设计了三个让整个流程变得实际可行的技巧。
第一个技巧是使用一个简化版的图像解码器来替代正式版本。正式的视频解码器(把模型内部的数字信号转化为肉眼可见画面的工具)非常耗时耗内存,但在优化阶段,视觉语言模型其实不需要画质有多完美,只需要能看清大致结构就够了。于是研究团队引入了一个轻量级的替代解码器,速度更快、内存占用更小,虽然画质差一点,但丝毫不影响考官的判断准确性(实验也验证了这一点)。正式输出最终结果的时候,再切换回高质量解码器。
第二个技巧是把视频生成模型"蒸馏"成一个只需要四步就能完成的快速版本,并且在优化阶段只优化第一步的预测结果。正常的视频生成模型需要经过几十步的迭代才能生成最终画面,但研究表明,推理行为主要在早期步骤就已经确立。经过"蒸馏"的四步快速模型,在第一步的预测结果就已经能让考官看出大致的推理走向,无需走完全部四步。这大大减少了每轮优化的计算量。
第三个技巧是用损失值来决定何时停止优化。当考官对所有问题的"是"答案都有足够高的把握时(损失值降到阈值以下),系统就自动停止,不再继续优化。这避免了过度优化——优化太多步反而可能让模型"钻空子",在评分上表现不错但实际视频质量反而下降。实验显示,平均只需要16步优化就能达到最佳效果,再往后的边际收益迅速缩小。
**六、用两套标准严格检验——实验结果如何**
研究团队用两个专门评测视频推理能力的基准来检验这套方案。第一个叫VBVR-Bench,专注于符号视觉推理,涵盖五大类能力:抽象推理、知识运用、感知判断、空间关系和变换操作。这个基准有明确的标准答案,用专门的检测程序来评分,客观性很强。第二个叫RULER-Bench,偏向开放性的通用场景推理,涵盖人文、科学、假设判断、语义理解、视觉感知等五大类共30个子任务,用GPT-o3这个强大的AI来当评委打分。
基线模型是一个经过快速蒸馏的Wan2.2-5B视频生成模型,在VBVR-Bench上的初始得分为0.666,在RULER-Bench上的平均分为46.4。
对比"生成多个候选择优"的方法(Pass@5,即生成5个候选选最好的),这种方法在VBVR-Bench上只能提升0.017,在RULER-Bench上提升2.7分。而对比"用语言模型优化提示词"的方法(VideoTPO),在VBVR-Bench上不升反降,得分反而下降了0.032;在RULER-Bench上虽然有3.9分的提升,但相比基线的提升幅度依然有限,而且在30个子任务里,有4个任务的得分反而更低了。
这套新方法则在VBVR-Bench上把得分从0.666直接提升到0.781,整体提升0.115,而且在域内任务和域外任务上都有一致的提升。在RULER-Bench上更是从46.4跃升至68.2,提升了整整21.8分,并且在全部30个子任务里无一例外地取得了提升。两个基准综合下来的平均提升幅度达到16.7分,远超其他所有对比方法,而且所用的计算时间与"生成5个候选"方案相当。
**七、拆解实验——每个设计决策的作用**
研究团队还做了大量的消融实验,也就是把方法里的每个组成部分逐一"拆除",看看少了哪块会损失多少,从而验证每个设计决策的必要性。
关于优化步数的实验清晰展示了一条先升后平再微降的曲线:从0步到16步,得分稳步从0.666升至0.781;从16步到20步,仅再提升0.002;继续到40步,得分反而微降至0.778。这说明过多优化会让模型过于"迎合考官",反而带来视觉上的退化。配合早停机制,实际平均只需16步就能达到最佳状态。
关于奖励设计,研究团队分别测试了只去掉"目标达成问题"和只去掉"过程监督问题"两种变体。去掉过程监督后,得分从0.781降至0.758;而去掉目标达成问题后,得分大幅降至0.692。两者缺一都会造成损失,但目标达成问题的影响更大。定性实验也提供了直观解释:在方块移动任务里,去掉目标达成问题后,模型会很好地保持方块的外观,但就是不把方块移到正确位置;而在蜗牛移动任务里,去掉过程监督问题后,模型为了让蜗牛"到达目标区域"走了一条捷径——让一只手伸进来放了另一只蜗牛,而不是移动原来那只。两类监督相辅相成,缺任何一类都会导致逻辑漏洞。
研究团队还测试了用"通用问题"替代"任务特定问题"的效果:把每次针对任务自动生成的具体考题,替换成"这个任务的目标有没有达成"和"过程有没有违规"这两个笼统的通用问题,得分从0.781降至0.712。这说明考题需要针对每个具体任务量身定制,笼统的通用标准根本抓不住各类任务的关键要点。
关于使用视觉语言模型在推理阶段直接优化与用它做离线后训练的对比,实验同样很有说服力:如果改成先用视觉语言模型的反馈在训练阶段调整模型,然后直接推理,得分仅为0.688;如果用非可微分的强化学习方式做后训练,得分为0.681;只有实时在线优化的方式才达到了0.781的最高水平。这表明视频推理任务需要针对每个具体实例的个性化适应,而不是一次性的通用训练。
**八、框架的通用性验证**
一个方法的价值,不仅在于它在标准配置下表现多好,更在于它换了不同的零件之后还能不能稳定工作。研究团队用不同的视觉语言模型和不同的视频生成模型分别做了验证。
在视觉语言模型的选择上,用InternVL3-8B替换默认的Qwen3-VL-4B,RULER-Bench得分为68.1,几乎持平;换成更强的Qwen3-VL-8B,得分进一步提升到69.2。而且研究团队发现,视觉语言模型在Video-MME这个视频理解测评上的得分越高,在RULER-Bench上带来的提升就越大,两者之间有相当强的正相关关系(相关系数平方R?=0.733)。换句话说,"监考老师"越厉害,学生进步越明显——这个直觉上合理的关系得到了数据支持。
在视频生成模型的选择上,把Wan2.2-5B替换为更小的HunyuanVideo-1.5B(一个更轻量级的视频生成模型),基线得分只有35.8,但加上这套优化框架后,得分提升到了44.5,提升幅度依然可观。这说明这套框架不依赖于特定的视频生成模型架构,具有较好的迁移性。
**九、诚实面对失败——两类主要错误**
论文专门分析了方法失效的情况,这是一个难得的诚实。研究团队手动标注了50个失败案例,发现其中84%(42个)的失败来自视觉语言模型的感知错误,只有16%(8个)来自考题本身的设计错误。
在Raven渐进矩阵(一种类似图形规律判断题的任务)的失败案例里,视觉语言模型误判了正确答案应该是什么形状,生成了一个错误的目标考题,结果优化方向从一开始就跑偏了——哪怕视频真的满足了这个错误考题的要求,也得不到正确答案。这属于"考题出错"类失败。
在铅笔变色任务里,铅笔的颜色其实只有一小块区域没有完全变成红色,视觉语言模型在检查时漏掉了这个细节,误以为已经完全变好了,于是提前停止了优化。铅笔最终带着一点点残余的颜色错误被输出了。这属于"感知精度不足"类失败。
这两类失败指向了明确的改进方向:一是需要一个机制来验证自动生成的考题是否正确,二是需要引入感知精度更高的视觉语言模型来充当监考老师,尤其是对细粒度视觉变化的判断能力要更强。
归根结底,这项研究揭示了一个很有意思的方向:让一个"懂规则但不会画"的AI来监督一个"会画但不懂规则"的AI,在推理时实时纠偏,效果远比单独依赖任何一方要好得多。视觉语言模型和视频生成模型之间,并不是替代关系,而是可以形成一种互补的"教学关系"——一个负责理解和评判,一个负责生成和执行。把这两种能力组合起来,才能让"用视频来推理"这个方向走得更远。
未来或许还有很多可以探索的地方:能不能让考题生成更可靠,能不能引入更精细的视觉反馈,能不能让这套框架迁移到更多类型的视频推理任务。这个领域还很年轻,但这项工作为它搭建了一个很清晰的思路框架。对这些问题感兴趣的读者,可以通过arXiv编号2606.02564找到完整论文,深入了解每个技术细节。
Q&A
Q1:VLM-as-Teacher方法和直接让语言模型写提示词来指导视频生成,有什么本质区别?
A:语言模型写提示词的方式(VLM-as-Solver)依赖文字描述来指导视频生成,但视频模型往往无法把细致的文字指令转化为正确的视觉动作。VLM-as-Teacher则完全不靠文字方案,而是让语言模型直接"看视频、打分、纠错",把评判结果转化为数学信号反向传给视频模型,让它在生成过程中实时修正。本质区别在于:一个是"告诉你怎么做",另一个是"看着你做、随时纠正"。
Q2:VLM-as-Teacher框架里的LoRA是什么,为什么只调整它而不调整整个模型?
A:LoRA是一种轻量级的"插件模块",可以理解为给视频生成模型套上的一个小型适配器。只调整LoRA而不动原始模型,一是因为LoRA参数量极小,计算成本低,适合实时优化;二是因为不同任务需要不同的适配,原始模型的通用能力需要保留,只让插件做任务专属的微调,用完即止,不会影响模型处理其他任务的能力。
Q3:VBVR-Bench和RULER-Bench这两个测试集分别考的是什么,VLM-as-Teacher在哪类任务上提升更明显?
A:VBVR-Bench主要考验结构化的符号推理,比如空间移动、图形变换这类有明确规则和标准答案的任务;RULER-Bench则偏向开放性的通用场景推理,涵盖科学、人文、视觉感知等多种类型。VLM-as-Teacher在两个基准上都有显著提升,但在RULER-Bench上提升更大(21.8分对比0.017),尤其在颜色、计数、方向、异常检测等需要精确视觉执行的任务上提升最为突出。





京公网安备 11011402013531号