优酷木可实验室造出"AI导演"—让视频生成真正听懂分镜故事的系统

IP属地中国·北京 科技行者 时间：2026-06-03 22:22:41

这项由中国科学院自动化研究所（NLPR/CISIA）与优酷木可实验室（Youku Moku-Lab）、华中科技大学（HUST）联合开展的研究，于2026年5月27日以预印本形式发布在学术论文库arXiv，编号为arXiv:2605.27891。感兴趣的读者可通过该编号检索完整论文。
**视频生成，差的不是画面，是"讲故事的能力"**
拍过电影或看过电影幕后制作的人都知道，导演在开机之前会先画"分镜故事板"——一张张手绘草图，标注出每个镜头的构图、人物位置、光线方向，以及镜头与镜头之间如何衔接。这些草图并不漂亮，却承载着整部影片的"节奏感"和"叙事逻辑"。有了它，摄影师知道该在哪一秒推进镜头，演员知道何时该停步回头，剪辑师知道如何让两个场景天衣无缝地连接。
现在，人工智能可以生成质量越来越高的视频，画面精细、动作流畅，乍一看令人叹服。然而，现有的AI视频系统大多只接受两种"指令"：一段文字描述，或者给定视频的第一帧或最后一帧画面。这就好比你只告诉导演"这部戏发生在古代，有个武士"，然后让他自由发挥——拍出来的视频或许很好看，但绝对不是你脑海中那个具体的故事。当你需要精确控制"第二秒角色走到画面中央、第五秒镜头拉远到全景、第八秒出现第二个场景"这样的叙事节奏时，现有系统就无能为力了。
为了解决这个问题，研究团队提出了一套名为**SmartDirector**的框架——一个真正懂得"读分镜"的AI导演系统。它的核心思路是：把关键帧当作分镜故事板，让AI在这些关键帧的约束下，自动生成中间所有内容，精确还原创作者预设的叙事节奏。
**一、AI导演面临的真正难题：时间轴上的"因果诅咒"**
在解释SmartDirector的解法之前，有必要先讲清楚为什么这件事"说起来容易做起来难"。
现有的视频生成系统在编码视频时，依赖一种叫做"3D变分自编码器"（3D VAE）的结构，可以把它理解为一台"视频压缩机"。这台压缩机有个特殊规则：它处理视频帧的方式不是均等的——第一帧是独立压缩的，但从第二帧开始，每隔四帧为一组，每一组都要依赖前一帧的信息才能被正确压缩。这种设计叫做"因果结构"，意思是后面的帧天然地"依赖"前面的帧，就像一串珠子，每颗珠子都被前一颗穿着。
这种设计在普通的视频生成中完全没问题，但一旦你想在视频中间的任意位置"插入"一个关键帧，麻烦就来了。由于压缩机不知道该插入的帧是一个"新的起点"，它会强行用前后帧的信息去"污染"这个关键帧的编码。结果就是：关键帧虽然出现在正确的时间位置，但它的视觉内容已经被周围帧"稀释"，生成的视频会在关键帧附近出现明显的画面跳变、闪烁，甚至人物凭空消失或突然变脸。
此前已有一些研究尝试过不同思路。一种方案是把相邻两个关键帧分别当作一小段视频的开头和结尾，分别生成再拼接——但这样每段只顾"自己的两头"，完全忽略整体叙事，拼接处的断裂感非常明显。另一种方案是直接把关键帧"强行塞进"噪声潜空间（可以理解为视频生成前的"草稿状态"）——但这正好踩中了上面提到的"因果结构陷阱"，画面错乱无法避免。还有方案是把关键帧在时间轴上复制四次来填充一组，以绕开因果问题——但复制出来的帧信息完全相同，导致那一段视频的动作完全静止，人物手臂凝固在空中，看起来像视频卡顿。
**二、多块VAE：给每个关键帧一个"独立的起点"**
SmartDirector的核心发明之一，是一种叫做"多块VAE"（Multi-Chunk VAE）的编码策略，优雅地绕开了上面的因果陷阱。
原理其实并不复杂：既然压缩机的规则是"第一帧独立处理"，那就让每个关键帧都成为某一段视频的"第一帧"。具体做法是，按照关键帧的位置，把整段视频切成若干"块"（Chunk），每个关键帧都是它所在那一块的第一帧。这样一来，每个关键帧都会被压缩机当作独立起点单独处理，不会被前后帧污染。每块视频独立压缩完之后，再把所有块的"压缩结果"（潜在序列）在时间维度上拼接成一个完整的序列，送入后续的生成模型处理。
用一个形象的比喻来说：原来的做法是把一本书的所有页码连续编号，中间不能有新的"第一页"；多块VAE的做法是把这本书拆成若干章，每章都有自己的第一页，然后再把所有章合订成一本书。关键帧永远是某一章的第一页，所以它的内容始终是干净独立的。
**三、MC-RoPE：让时间索引在章节边界处"轻踏一步"**
解决了编码问题，还有一个更微妙的挑战需要处理。
视频生成模型在处理帧序列时，需要给每一帧标注它在时间轴上的位置，就像给照片贴上时间戳。通常，这些时间戳是连续整数：0、1、2、3……每帧递增1。但多块VAE把视频切块之后，每个关键帧既是上一块的"紧接下文"，又是下一块的"全新开始"。如果继续用连续整数索引，关键帧在时间轴上的位置感就会出现矛盾——前后两块的时间逻辑会在关键帧处"对撞"，导致生成的动作在边界处有轻微跳变。
研究团队为此设计了"多块旋转位置编码"（MC-RoPE）。它的规则只有一条细微的调整：在普通帧之间，时间索引每次递增1；但在遇到关键帧时，时间索引只递增0.25。这意味着关键帧在时间轴上被标记为一个"小步"而非"完整步"，它轻轻地"踩在"前一块的结尾和下一块的开头之间，既保持了连续性，又清晰地标注了自己的边界位置。
结果就是，模型在处理跨块内容时，能够感知到关键帧是一个"锚点"，而不是一个普通的过渡帧，从而在生成中间内容时更好地以关键帧为参照，避免时间轴上的混乱。
**四、两阶段流程：先搭骨架，再填细节**
SmartDirector整体上是一个两阶段的系统，分别叫做Director-Gen（生成阶段）和Director-SR（超分阶段）。
第一阶段Director-Gen的任务是"搭骨架"。它接收用户提供的关键帧和文字描述，利用上面介绍的多块VAE策略和MC-RoPE，通过一个大型扩散变换器（DiT）模型生成完整的低分辨率视频（480p级别）。在这个阶段，模型采用"全时空注意力机制"，意思是视频中每一帧都可以"看到"所有其他帧——不管它们属于哪一块，距离多远。这确保了整段视频在全局层面的一致性，角色的外貌、场景的氛围、叙事的节奏都能贯通始终。
第二阶段Director-SR的任务是"填细节"。480p的视频画质对于实际应用往往不够——人脸模糊、文字失真、衣物纹理消失。传统的视频超分辨率方法只是在数学上"猜测"缺失的像素，并不知道画面里"本来应该是什么样子"。Director-SR则不同：它同样采用多块VAE策略，将用户提供的高分辨率关键帧作为"语义锚点"。在超分辨率处理过程中，关键帧所在位置的低分辨率内容直接被替换为高分辨率的关键帧信息，然后模型以这些高清锚点为参照，将相邻的低分辨率帧恢复到1080p级别。这样一来，人脸的细节、衣物的图案、场景中的文字，都能从关键帧中"借来"正确的高频信息，被真实还原，而不是凭空猜测。
**五、数据管道：从海量电影中学会"看懂分镜"**
训练这样一个系统需要大量高质量的多镜头视频数据，以及与之配套的详细文字描述。为此，研究团队构建了一套完整的数据处理流水线。
流水线的第一步是收集视频素材。团队从公开可用的无版权电影中收集大量视频，用一个叫AutoShot的工具自动识别每个镜头边界，将长片切割成一个个单镜头片段。然后，借助视觉语言模型的分析能力，把那些场景相同、故事连贯的单镜头片段重新组合，形成多镜头视频序列。
第二步是为视频添加结构化描述。这里用到了三个工具：VGGT负责估算镜头运动的几何轨迹（比如推镜头、拉镜头、横移）；Qwen3-VL则用视觉理解能力将这些轨迹翻译成自然语言（比如"镜头向右平移并逐渐拉近"）；SAM2负责在整段视频中追踪每一个出现的角色，确保同一个人在不同镜头中的外貌描述保持一致。
第三步是生成分层描述。把上面收集到的镜头内容、摄影机描述和角色描述，一起输入Gemini-3-Pro，让它生成一份统一格式的"分镜脚本"。这份脚本包含两层内容：一层是对整段多镜头视频的全局叙事总结，另一层是对每个镜头的独立描述，包含该镜头的时间范围、转场类型、摄影机运动和主要视觉内容。这种数据形式与电影导演使用的分镜脚本高度对齐，正是训练SmartDirector所需要的。最终，数据集包含超过200万个单镜头片段和40万个多镜头序列。
**六、测试结果：数字与人眼都说"更好"**
研究团队构建了一个专门的评测基准，从电影、电视剧和动画中收集了250段单镜头视频和250段多镜头视频，时长从3秒到15秒不等，均以24帧/秒、至少1080p原生分辨率呈现。每段视频随机抽取若干帧作为关键帧条件，用于测试。对比的系统是Dreamina多帧（字节跳动旗下即梦AI），目前市面上支持多关键帧条件视频生成的最具代表性的商业系统。
在客观指标方面，研究团队使用FVD（一种衡量生成视频与真实视频在统计分布上差距的指标，数值越低越好）进行评测。在单镜头场景中，Dreamina的FVD为226.85，SmartDirector降至41.12，差距超过五倍。在多镜头场景中，差距更加悬殊：Dreamina为251.83，SmartDirector为65.65。多镜头场景本身更复杂，因为涉及场景切换和镜头剪辑，两者在这一场景下的差距反而比单镜头更大，说明SmartDirector在处理叙事复杂度时表现更稳定。
在语义评估方面，研究团队让Gemini-3-Pro对生成视频进行打分，评分维度涵盖五个方面：指令遵循度（视频是否按照文字提示生成内容）、叙事连贯性、物理一致性（物体运动是否符合物理规律）、视频质量（画面清晰度和稳定性）和视觉美观度。在单镜头场景中，Dreamina平均分为83.87，SmartDirector为91.30，其中叙事连贯性一项提升最为显著，涨幅达12.56分。在多镜头场景中，差距进一步拉大：Dreamina仅得59.32分，SmartDirector达88.48分，近30分的差距非常明显。
在人类评测方面，研究团队招募了30名参与者，对500对视频进行盲测对比（参与者不知道哪段是哪个系统生成的）。评测采用"好/中/差"三档比较法，从身份一致性、叙事节奏、关键帧还原度和总体质量四个维度打分。在单镜头场景中，SmartDirector在叙事节奏方面的优势尤为突出；在多镜头场景中，总体质量维度的胜率高达54.73%，而且身份一致性的GSB得分接近+50，说明SmartDirector在多个场景切换后依然能维持角色外貌的稳定，而Dreamina在这方面表现明显较弱。
**七、超分阶段的独立对比：语义锚点优于纯像素修复**
研究团队还专门将Director-SR与另一个关键帧条件视频超分系统SparkVSR进行独立对比，在四个公开超分辨率基准数据集（UDM10、SPMCS、YouHQ40、RealVSR）上测试。
结果显示，两者在PSNR（峰值信噪比）和SSIM（结构相似度）这两个衡量像素精准度的指标上表现相当，但Director-SR在LPIPS（感知相似度，衡量人眼感知质量，越低越好）上在全部四个数据集上均显著优于SparkVSR。以YouHQ40数据集为例，SparkVSR的LPIPS为0.3501，Director-SR降至0.1366，不到前者的一半。这意味着Director-SR修复出来的视频，在人眼看来更接近高清参考视频，细节更真实，而不只是数学意义上"更准确"。
定性对比同样印象深刻：SparkVSR在面对严重模糊的人脸或失真的文字时，往往无法恢复出正确的特征，只是让模糊的区域变得稍微清晰一些，但细节依然错误。而Director-SR因为有高清关键帧作为语义参照，能够"知道这里的脸应该长什么样"，从而真正还原出正确的面部特征和清晰的文字内容。
**八、消融实验：证明每个设计选择都有其必要性**
为了验证多块VAE设计的必要性，研究团队做了两个对照实验。
第一个对照组叫"不用多块策略"，即直接把关键帧插入普通的连续潜在序列中，不做切块处理。结果出现了两种典型失败：一是在关键帧前后的帧出现运动轨迹突变，角色的手在帧49和帧50之间发生明显跳跃；二是模型因为无法正确处理因果冲突，直接把帧96的关键帧内容"复制"到了帧47的位置，然后在帧50突然消失——完全不符合任何叙事逻辑。
第二个对照组叫"关键帧复制法"，即把每个关键帧沿时间轴复制四次，凑满一组四帧，以符合VAE的因果结构。这个方法解决了因果冲突问题，但代价是那一组四帧的内容完全相同，导致视频在关键帧附近出现明显的"静止卡顿"，角色的手臂在连续多帧中一动不动。
与这两个对照组相比，SmartDirector的多块设计在保持因果结构合法性的同时，允许自然的动作过渡，视频中没有跳变，也没有卡顿，动作流畅且连贯。
**写在最后：AI导演的第一步，可能也是关键一步**
归根结底，SmartDirector做的事情是：把"关键帧"这个电影工业里已经用了几十年的概念，真正带入AI视频生成的工作流中。以往的AI视频生成更像是让一个会画画的人闭眼随机创作；现在，研究团队给这个人递上了分镜故事板，让他知道在哪一刻该画什么，整个创作过程因此有了真正的方向感。
这项研究对普通创作者的潜在意义相当直接：如果你是短视频创作者、独立动画导演，或者只是有个具体故事想用视频表达，SmartDirector这类系统意味着你只需要准备几张关键画面，就能得到一段完整、连贯、符合你叙事预期的视频，而不再需要祈祷AI"刚好生成了你想要的样子"。
当然，这套系统并非没有局限。两阶段流程（先生成低分辨率、再超分）在节省计算资源的同时，不可避免地在第一阶段引入了一些信息损失，超分阶段虽然能部分弥补，但理论上与单阶段直接生成高分辨率视频相比，仍有细节上的轻微差距。此外，VAE的结构要求每块视频的帧数必须满足"4的倍数加1"的约束，这意味着关键帧无法精确落在任意一帧，最多有正负两帧的时间偏移——对于大多数创作场景来说这几乎感知不到，但在极端精确控制的需求下仍是一个约束。
有兴趣深入了解技术细节的读者，可以通过arXiv编号2605.27891查阅完整论文，也可以访问项目主页了解更多示例。
Q&A
Q1：SmartDirector和普通AI视频生成工具有什么区别？
A：普通AI视频工具通常只接受文字描述或首尾两帧作为输入，无法精确控制视频中间每个时间点的画面内容。SmartDirector允许用户提供任意数量的关键帧，系统会自动在这些关键帧之间生成过渡内容，生成的视频会严格经过这些关键帧，因此创作者可以像电影导演使用分镜一样精确控制视频的叙事节奏。
Q2：多块VAE策略解决了什么具体问题？
A：现有视频压缩结构（3D因果VAE）要求视频帧按顺序依赖前帧编码，直接在中间插入关键帧会破坏这种依赖关系，导致关键帧附近出现画面跳变和视觉错误。多块VAE的做法是将视频按关键帧位置切成若干段，每段的关键帧都作为该段的第一帧独立编码，从根本上避免了因果冲突，让每个关键帧都能被干净、准确地保留。
Q3：Director-SR超分阶段和普通视频超分辨率有什么不同？
A：普通视频超分辨率只关注像素层面的恢复，不知道画面里"本来应该是什么内容"，遇到严重模糊的人脸或文字时往往只能猜测。Director-SR额外接受高分辨率关键帧作为语义参照，将关键帧的高清内容作为锚点，引导模型恢复相邻低分辨率帧的真实细节，因此能还原出正确的面部特征和清晰文字，而不仅是数学意义上的"更清晰的模糊"。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

苹果再向OpenAI“拔刀”：约40名前苹果员工收到律师函

美国人开始反思：美国为何留不住Kimi创始人杨植麟这种AI人才

DeepSeek实习生，月入12万

在WAIC 2026暴走三天后，我发现今年最火的AI，都不在电脑里了

赛思极限CEO徐楠：以“通专一体”科学基础模型推动科研范式重塑

乘联分会崔东树：2026上半年中国汽车出口918亿美元，同比增54%

全站最新

苹果再向OpenAI“拔刀”：约40名前苹果员工收到律师函

美国人开始反思：美国为何留不住Kimi创始人杨植麟这种AI人才

DeepSeek实习生，月入12万

在WAIC 2026暴走三天后，我发现今年最火的AI，都不在电脑里了

热门推荐

苹果再向OpenAI“拔刀”：约40名前苹果员工收到律师函

美国人开始反思：美国为何留不住Kimi创始人杨植麟这种AI人才

DeepSeek实习生，月入12万

在WAIC 2026暴走三天后，我发现今年最火的AI，都不在电脑里了

赛思极限CEO徐楠：以“通专一体”科学基础模型推动科研范式重塑

乘联分会崔东树：2026上半年中国汽车出口918亿美元，同比增54%

国内首台水下布料刮平一体化整平设备投入使用

先办牌照再造车，央视曝光非标电动车黑灰产链条

总部设上海，世界人工智能合作组织未来将鼓励共建开源生态

涉中创新航177Ah磷酸铁锂电芯埃安S系列陷“电池质量”风波

华为靳玉志：“境”和“界”并不冲突、是互补的关系，鸿蒙智行打造30万以上汽车的样板点

开发者在多款Steam游戏中藏匿木马被捕，最高面临10年刑期

千里科技在WAIC公布多项进展：阶跃Step AOS将应用于汽车，年底推ASD 5.0

机器人灵巧手加速下沉，能全面替代传统夹爪吗？|WAIC观察

Kimi K3发布三天后暂停新会员订阅，月之暗面称算力已逼近极限