![]()
这项由澳门大学科技学院智能物联与系统研究中心及腾讯在线视频部门联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.19995,有兴趣深入了解的读者可以通过该编号查询完整论文。
动画制作是一件极其繁琐的事。一个动画片段从诞生到呈现在观众眼前,要经历无数道工序——导演先画出潦草的故事板草图,3D部门做出粗糙的黏土渲染模型,再一步步打磨成精致的成品视频。在这个过程中,草图就是草图,它勾勒的是意图,传递的是"我想要什么样的感觉",而不是精确的像素蓝图。一个好的动画导演看到一张歪歪扭扭的火柴人草图,脑子里会自动补全服装细节、动作流畅度和光影变化。
现在问题来了:当人们试图用AI来完成这项翻译工作时,AI能理解这种"意图"吗?
答案是:以往的AI系统很难做到。它们要么像刚入行的实习生,只会死板地照着草图复刻每一条线,要么像没有专业训练的通才,面对专业动画生产流程时完全找不到方向。这正是澳门大学与腾讯研究团队开发CogOmniControl系统所要解决的核心难题。
一、为什么现有AI在面对草图时会"原地崩溃"
要理解CogOmniControl解决了什么问题,先得搞清楚现有系统是怎么失败的。
以往的可控视频生成系统大体上走两条路。第一条路叫做"适配器注入",就是在AI视频生成模型旁边插一个额外的模块,让这个模块负责理解控制信号。好比你在一台老式电视机旁边接了一个机顶盒,机顶盒理解遥控信号,再传给电视机播放。这个方案的问题在于,机顶盒和电视机是两套独立设计的系统,沟通起来非常局限。当控制信号是精确的姿势骨架或深度图时,这种方案还能应付;但当控制信号是一张潦草的故事板草图,上面画着一个圆圈代表太阳、几根线条代表山峰时,机顶盒就不知道该传什么信号给电视机了。生成的视频轻则质量糟糕,重则完全牛头不对马嘴。
第二条路是把一个通用的视觉语言大模型(可以理解为一个"看图说话"的AI)直接耦合进视频生成系统,让它负责理解条件输入,再指导视频生成。这条路听起来更聪明——毕竟大语言模型理解能力强嘛。但研究团队发现,这里存在两个致命缺陷。
第一个缺陷是认知鸿沟。通用视觉语言模型是在互联网上的各种图片和文字上训练出来的,它懂得很多,但它不懂动画专业术语,不懂故事板的行业惯例,也不懂黏土渲染模型和最终成品之间到底应该有什么样的关系。当它面对一张标注着"静转动,人物缓慢抬手"的故事板草图时,它可能压根不理解这句话对于视频动作编排意味着什么。这就像请一个博学多才但从没踏进动画公司的人来担任动画导演——他学识渊博,却缺乏行业认知。
第二个缺陷是对齐鸿沟。即便通用模型输出了一段推理文字,比如描述了"应该如何生成视频"的计划,这段文字和最终视频生成模型之间也没有经过充分的磨合。推理输出中的措辞习惯、关注重点和视频生成模型期待的输入格式之间存在噪声,这些噪声会让最终视频"跑偏"。
研究团队把这两个问题分别命名为"认知鸿沟"和"对齐鸿沟",并为每一个设计了针对性的解决方案。
二、CogOmniControl:用"专业导演+执行助理"的搭档模式解决问题
CogOmniControl的核心思路,是把整个视频生成过程拆分成两个角色的协作:一个懂行的专业导演,和一个能精确执行导演指令的制作团队。
扮演"专业导演"角色的,是研究团队训练出的CogVLM。这是一个专门针对动画制作场景进行深度训练的视觉语言模型。它的任务是接收所有输入条件——无论是故事板草图、黏土渲染视频、参考图片还是文字描述——然后像一个经验丰富的动画导演那样,理解这些素材背后的创作意图,形成清晰的制作方案,并把这个方案用密集、有条理的推理文字表达出来。
扮演"制作团队"角色的,是CogOmniDiT,一个统一的视频扩散变换器。它接收导演的推理输出,再结合原始的各种控制条件,最终生成视频。
这个搭档结构的妙处在于:导演和制作团队分工明确,各自在自己最擅长的领域发挥作用,而且两者之间经过了专门的磨合训练,保证指令传达准确无误。
整个系统还走得更远——除了生成视频,CogVLM还能在推理过程中顺手提名"这个视频应该用哪几个标准来评判质量",并自动调用相应的评估工具,对生成出来的多个候选视频打分筛选,挑出最好的那一个。这就形成了一个完整的闭环:导演制定方案、制作团队执行、质检部门验收。整个流程无需人工干预。
三、CogVLM是怎么练成"懂行"的
CogVLM之所以能理解故事板草图背后的创作意图,关键在于它的训练数据和训练方式都与通用模型截然不同。
研究团队的训练数据来自真实的动画制作工作流程——是货真价实的专业生产数据,而不是从互联网上随意收集的图片。这包括动画导演亲手绘制的故事板草图、3D部门制作的黏土渲染视频,以及对应的最终成品视频。这类数据的独特价值在于,它天然携带着"创作意图"的标签:我们知道这张草图的作者想要什么样的最终效果,知道黏土模型和成品之间应该发生什么样的转化。相比之下,以往很多研究只能从现有视频里"模拟"用户意图,这种模拟和真实的专业创作意图之间存在根本性的差距。
在训练方法上,CogVLM经历了两个阶段。第一个阶段叫监督微调,简单说就是让模型看大量的"输入-输出"示例对,学习专业动画知识和创作意图的表达方式。经过这个阶段,模型已经具备了相当不错的专业理解能力。
但研究团队没有就此打住。第二个阶段叫强化微调,这是让模型变得更加精准的关键步骤。在这个阶段,模型生成推理输出后,有一个"评判系统"会对这个输出打分,然后通过奖励机制引导模型朝着更好的方向调整。
评判系统的打分维度分为两种。第一种叫做整体奖励,从四个维度综合评判推理输出的质量:创作意图(模型有没有理解用户真正想要什么)、物理合理性(描述的画面符不符合现实物理规律)、信息完整性(有没有遗漏重要的视觉细节)和动作描述(对运动和动态的刻画是否准确)。每个维度都有专门的评判模型打出一个分数,加权后汇总成一个综合分。
第二种叫做准确性奖励,专门对付一个顽固问题:模型的"幻觉"——也就是模型一本正经地描述根本不存在的东西。为了解决这个问题,研究团队让一个教师模型针对每个输入条件集提出若干个二值问题(是/否型问题,比如"画面中有没有出现水面?"),然后让评判模型检查推理输出是否正确回答了这些问题。这个机制把主观的叙述性评判转化为可以客观核实的准确性指标,有效压制了模型编造信息的倾向。
四、CogOmniDiT如何在一个框架里处理所有条件
视频生成部分同样有值得细讲的设计。CogOmniDiT采用了一种叫做"上下文生成"的统一处理方式,把所有异质的输入信息——带噪声的潜变量(可以理解为"视频的草稿")、参考图的潜变量、控制视频的潜变量,以及来自CogVLM的推理嵌入表示——拼接成一个长序列,一起送入模型处理。
这种方式的优势在于,变换器架构天生擅长在一个序列内部建模各元素之间的关系。视频的每一个局部都可以在处理过程中"看到"参考图的外貌、控制视频的动作轨迹,以及导演给出的制作方案,从而在生成时做出全局一致的决策。这避免了传统方案中各路条件相互独立、互不知情的碎片化问题。
CogOmniDiT也经历了监督微调和强化微调两个阶段。监督微调分为三个递进步骤:先单独训练上下文生成能力,再引入冻结的CogVLM和可训练的连接器,让视频生成模型学会接收并使用VLM的推理特征,最后进行联合训练,让整个系统协同工作。强化微调阶段则专门针对两个维度设计奖励:条件遵循(生成的视频是否忠实反映了控制条件的要求)和视频质量(生成视频的整体质量水平)。考虑到计算资源的限制,强化微调在较低分辨率下进行训练,利用视频扩散变换器的分辨率泛化能力,推理时直接升到高分辨率使用。
五、闭环验证:CogVLM如何变成整个系统的"质检总监"
传统的最优选择策略(Best-of-N,即生成N个候选视频再挑最好的那个)有个固有缺陷:它用一套固定的评估指标来衡量所有视频,不管输入内容是什么。这就好比用同一份考试卷考所有专业的学生,考建筑的人和考文学的人回答完全一样的题目,显然不合理。
生成一个专注于人物动作的动画时,最重要的评估维度可能是动作流畅性和角色一致性;而生成一个以风景变化为主的场景时,角色一致性就根本不是需要关注的问题。研究团队意识到,评估标准应该随着具体任务动态调整,而不是一刀切。
这时候CogVLM的独特价值再次体现出来。由于CogVLM在推理过程中已经深度理解了输入条件的性质,它自然也知道"这个生成任务最需要哪些方面做得好"。于是,研究团队训练CogVLM在推理的同时,还能顺手输出一个"评估工具清单",列出针对这个具体任务最适合使用哪些评估器。
整个评估工具库包含13种专业评估器,覆盖了从AI伪影检测、提示词遵循、时间平滑性,到故事板注释执行、跨模态因果关系、物理动态合理性等方方面面。其中有三个基础评估器会被无条件调用(AI伪影检测、提示词遵循和时间平滑性),其余的则由CogVLM根据具体任务性质来决定要不要调用。例如,当输入条件是一张带有手写注释的故事板时,CogVLM会识别出这些注释是导演的额外创作指令,并在评估时调用"故事板注释执行"评估器,专门检验生成视频是否准确响应了这些注释。
这个机制让整个系统形成了一个完整的闭环:CogVLM制定生成方案 → CogOmniDiT按方案生成N个候选视频 → CogVLM选定评估工具 → 评估工具打分 → 选出最优视频。在这个闭环里,"导演"不仅负责制定拍摄计划,还负责组建质检团队,保证最终交付的成品达到预期标准。
六、两个新基准:用真实专业数据检验AI的"读懂意图"能力
为了验证这套系统的效果,研究团队还做了一件重要的事:建立了两个全新的评估基准数据集,分别叫CogReasonBench和CogControlBench。
这两个基准的独特之处,在于数据来源于真实的专业动画制作流程,而非人工模拟的合成数据。现有的视频生成基准,大多是研究人员从现有视频里提取条件信号(比如用工具从视频里提取深度图,然后测试模型能不能从深度图还原视频),这本质上是在用"结果反推条件",不代表真实用户拿着草图、想象终态的场景。CogControlBench里的数据是动画制作公司实际使用的故事板和黏土渲染视频,CogReasonBench里的推理参考答案是由专业工具辅助、经人工验证筛选的。这种"原生真实"的数据特性,使得这两个基准能更准确地反映AI在真实专业工作流中的表现。
在基准建设方面,CogControlBench包含200个高分辨率(720P)样本,同时支持图像、多图像和视频三种输入模态,且数据属性标注为原生原始数据,真实携带创作意图。相比之下,现有的几个主要视频生成基准(如VBench、VACE-Bench、IntelligentVBench等)要么不支持多图像输入,要么数据来源是合成的,要么虽然声称携带创作意图但实际上是模拟出来的。CogControlBench填补了这个空白,提供了第一个基于真实专业工作流数据、携带真实创作意图的视频生成评估基准。
七、实验结果:专业训练带来了什么样的差异
在CogReasonBench上,研究团队测试了不同版本的CogVLM与通用模型的差距。通用模型Qwen3-VL-8B-Instruct在创作意图理解维度只得到2.480分,同系列的思维链版本Qwen3-VL-8B-Thinking也只有2.670分。经过监督微调的CogVLM(SFT版本)把这个分数拉到了3.725,经过进一步强化微调的版本(RFT版本)达到3.985。在综合平均分上,通用模型只能得到3.712和3.752,而CogVLM的两个版本分别达到4.343和4.473。差距在创作意图维度最为悬殊——这正是专业训练发挥作用的核心领域。
在CogControlBench的综合对比中,CogOmniControl以0.727的平均分在所有开源模型中拿下最高分,超过VINO的0.686和VACE-Wan2.1的0.665。与此同时,它与顶级商业系统Seedance2.0(0.750)的差距已经缩小到可感知但非不可追赶的范围。当启用Best-of-N策略生成4个候选视频再筛选时,使用全套评估器的得分提升到0.733,使用CogVLM自适应选定评估器的得分进一步提升到0.742。自适应选择评估器的方案比固定全套评估器的方案表现更好,验证了"针对不同任务选择最合适评估标准"这个设计思路的有效性。
从更具体的维度来看,CogOmniControl在多模态意图(MI)、外观保持(AF)、风格保持(SF)和内容遵循(CF)这些需要理解创作意图的维度上表现尤为突出。这与研究团队的设计初衷高度一致。
消融实验进一步拆解了每个训练阶段的贡献。用通用的Qwen3-VL-8B-Thinking搭配CogOmniDiT时,多模态意图分数只有3.142;换上经过监督微调的CogVLM后,分数提升到3.397;再换上经过强化微调的CogVLM,分数达到3.586。这说明每一个训练阶段都有实质性的贡献,不是叠加凑数的冗余设计。
在定性的视觉对比中,基于适配器的方法(VACE系列)会强行把生成结果对齐到控制视频的像素级细节,导致黏土渲染视频的粗糙纹理直接出现在最终视频里,产生严重的视觉伪影。VINO生成的视频几乎是静态的,缺乏有意义的动态内容。OmniWeaving虽然也用了VLM来辅助理解,但推理过程没有经过专业化训练,面对复杂任务时容易理解跑偏。CogOmniControl生成的视频在角色外貌一致性、动作流畅性、创作意图匹配度和整体质量上都明显优于其他开源对比方案。
说到底,CogOmniControl做的事情,本质上是填补了"AI懂不懂行"这个长期存在的空缺。以往我们总是期待通用AI万事皆通,但在需要专业领域认知的场景里,通用往往意味着平庸。研究团队用真实的动画生产数据训练出一个懂行的专业AI,再让它和视频生成模型深度磨合,最后还给它配上了一套自适应评估机制。这个思路——专业化、磨合、闭环——在视频生成领域是相当清晰的一步。
对于普通人来说,这项研究最直接的意义,是动画、影视和游戏制作领域的自动化水平将会显著提升。导演可以用更少的精力把草图意图传达给AI,AI能更准确地理解"我要的不是这根线,而是这根线代表的那种感觉"。当然,目前的系统仍在不断完善中,与顶级商业系统之间还存在一定差距,在一些极端复杂或高度抽象的场景下可能仍然力不从心。但研究方向本身提供了一个值得继续深入的路径。
有兴趣进一步了解这项研究的读者,可以通过arXiv编号2605.19995查阅完整论文。
Q&A
Q1:CogOmniControl和其他视频生成工具相比有什么优势?
A:CogOmniControl最大的优势是能理解"意图",而不只是照抄控制信号的像素。其他工具面对故事板草图或黏土渲染视频这类抽象条件时容易出现画面伪影、语义跑偏或画面静止的问题。CogOmniControl通过专业训练的CogVLM理解导演想要什么,再指导视频生成,因此在创作意图理解和角色一致性等维度上明显更好。
Q2:CogVLM为什么要用真实动画生产数据来训练?
A:因为真实生产数据天然携带"创作意图"的对应关系,知道一张草图最终应该变成什么样的视频。而用互联网图片训练的通用模型,根本接触不到这种专业知识。用合成数据模拟的意图和真实导演的意图之间也存在根本差距。真实数据是CogVLM"懂行"的根本原因。
Q3:CogOmniControl的自适应评估机制是怎么工作的?
A:CogVLM在输出制作方案的同时,会根据任务性质挑选最合适的评估工具。系统有13种评估器,3种基础评估器每次必用,其余的按需调用。比如任务涉及角色,就调用角色一致性评估;任务来自带注释的故事板,就调用注释执行评估器。生成N个候选视频后,这套评估体系打分,挑出最优视频作为最终输出。





京公网安备 11011402013531号