![]()
本文的作者分别来自浙江大学和字节跳动。第一作者何昊阳是来自浙江大学的博士生,研究方向聚焦于视频生成与编辑。通讯作者为浙江大学谢磊教授。
亮点总结
作者提出了一个大规模、高质量、多类别的指令跟随的视频编辑数据集 OpenVE-3M,共包含 3M 样本对,分为空间对齐和非空间对齐 2 大类别共 8 小类别。作者提出了稳定的高质量、多类别的指令跟随视频编辑数据构造管线,确保编辑质量的同时具有多样性,促进社区研究。作者提出了一个高效且有效的指令跟随视频编辑模型 OpenVE-Edit,仅 5B 的参数量实现了 SoTA 并超过了现有开源 14B 模型效果。作者提出了一个通用的、多类别且充满挑战的指令跟随视频编辑评测集,它从 3 个关键维度评估模型在各个类别上的性能并与人类评价高度对齐。
![]()
论文标题:OpenVE-3M: A Large-Scale High-Quality Dataset for Instruction-Guided Video Editing论文链接:https://arxiv.org/abs/2512.07826项目主页:https://lewandofskee.github.io/projects/OpenVE/
1. 研究动机
现有指令遵循的视频编辑数据集如 InsViE-1M、Senorita-2M、Ditto-1M 主要存在数据集规模小、编辑类型少、编辑指令短和编辑质量差四个问题。表 1 展示了现有开源视频编辑数据集的定量分析,其中尽管 VIVID 有 10M 的数据规模,但是其只提供了掩码视频而没有编辑后视频导致无法直接训练。而 InsViE-1M、Senorita-2M、Ditto-1M 三个数据集只有 1 或 2M 的样本数,并且编辑种类较少。
![]()
表 1: 与当前指令跟随视频编辑数据集的比较。Cat./Avg. Ins. Lgth 分别指类别 / 平均指令长度
图 2 (a) 展示了编辑指令长度的分布,InsViE-1M、Senorita-2M 的平均编辑指令的单词长度较少平均只有 4 个单词,无法很好的提供准确的编辑指令信息影响编辑效果。为了判断指令跟随的视频编辑数据集的质量,作者将原始视频、编辑后视频和编辑指令输入至 Gemini 2.5 Pro 中并在 Consistency & Detail Fidelity, and Visual Quality & Stability 三个层面进行 1 到 5 打分,其中后两者的得分不应该超过前者。将每个数据集中的每个类别随机挑选 50 个编辑对进行评测,最终得分分布如图 2 (b) 所示。
InsViE-1M、Senorita-2M 数据集尽管在 5 分也有较高的分布,但是其为 1 分的 bad case 占比也很高,导致数据集的平均质量得分偏低。Ditto 数据集也有着不错的质量但是其主要编辑类型为风格的变换,编辑种类还不够丰富。综上所述,目前还缺少大规模、高质量、多种类的指令跟随的视频编辑数据集。
![]()
图 2: OpenVE-3M 与当前开源视频编辑数据集的视频统计数据比较
因此,作者提出了一个大规模、高质量、多类别的指令跟随视频编辑数据集 OpenVE-3M。其共包含 3M 个样本,分为空间对齐和非空间对齐两类,其中空间对齐指的是编辑后视频和原始视频在空间和时序上具有一致的运动包括 Global Style, Background Change, Local Change, Local Remove, Local Add, and Subtitles Edit 共 6 类,非空间对齐指的是编辑后视频和原始视频在空间和时序上具有一致的主体但不一致的运动包括 Camera Multi-Shot Edit and Creative Edit 共 2 类。所有类别的可视化例子如图 1 所示。此外 OpenVE-3M 还具有最长的平均指令长度 40.6,分布均匀的视频帧数以及最高的视频编辑质量总平均分 3.86。
![]()
图 1: 在同一个视频中演示来自所提出的 OpenVE-3M 数据集的八个不同类别
![]()
图 3: OpenVE-3M 的类别和帧计数统计
2. OpenVE-3M 数据集构建
![]()
图 4: 数据管道概述。第一阶段:旨在构建视频语料库并执行各种预处理步骤,为第二阶段做准备。第二阶段:重点在于利用一系列模型和工具,为每个类别生成编辑对。第三阶段:涉及对第二阶段生成的所有编辑对进行细粒度过滤,以仅保留高质量样本。
a. 第一阶段:视频预处理
![]()
图 5: Stage1 视频数据预处理管道
b. 第二阶段:基于分类法的视频编辑和指令生成
![]()
图 6: Stage2 视频编辑数据构建流程的详细工作流程: Global Style, Local Change, Background Change, and Local Add
![]()
图 7: Stage2 视频编辑数据构建流程的详细工作流程: Local Remove, Subtitles Edit, Camera Multi-shot Edit, and Creative Edit
c. 第三阶段:高质量视频编辑对过滤
对于所有类别的合成数据对作者针对每个类别精细设计了数据过滤管道。首先是每个类别视频编辑提示词的精细构建,共包含 3 大主要评测指标:指令遵循、Consistency & Detail Fidelity 和 Visual Quality & Stability,每个指标评分 1-5 分进行打分。
其中关键的是以指令遵循指标为得分上限,即后面两个指标的得分不能超过指令遵循指标。因为有许多视频编辑数据尽管视频质量高但完全没有被编辑,因此作者希望指令遵循是首要评判标准。随后作者将编辑指令、编辑前视频和编辑后视频输入到 VLMs 中进行打分。在此,作者人工挑选并打分了 300 个视频编辑对并与 3 个 VLMs 模型打分结果进行对比。将视频编辑对平均得分超过 3 分定义为正样本、小于等于 3 分为负样本。最终计算 Qwen3-VL-A3B 模型准确率为 61%,Intern3.5-VL-38B 模型准确率为 66%,Seed1.6-VL 准确率为 70%,Gemini2.5-Pro 准确率为 69%。但是受限于 Seed1.6-VL 和 Gemini2.5-Pro 的 API TPM 的限制,作者最终选用 Intern3.5-VL-38B 模型用于打分并过滤所有得分大于 3 分的视频编辑对。
3. OpenVE-Edit 指令跟随视频编辑模型
![]()
图 8: OpenVE-Edit 的整体架构。(a) OpenVE-Edit 的架构。(b) MoE-Connector 模块的详细结构。
OpenVE-Edit 创新点:
仅用 T5 特征只能得到字面意思的指令编辑表示而不能获取更高维度的指令与视觉语义空间关系表示。因此,作者将输入原始视频和编辑指令一同输入到多模态大模型中,这使模型能够捕捉更高维度编辑指令和视觉特征之间的语义与空间关系。为了应对多样化视频编辑的各种不同需求,任务异质性在使用单一模型时会导致参数效率低下,因为共享参数会将易受干扰的表征内化,从而导致专业化程度不理想并增加参数数量。因此,基于多任务感知的 MoE-Connector 模块被设计用于同时应对图像和视频不同编辑类型。由于现有的视频生成模型都已经经过大规模的数据预训练,而 MoE-Connector 在训练开始时是随机初始化的。如果它直接输出一堆无意义的「噪声」视觉特征给下游模型,很可能会严重干扰下游模型的稳定状态,导致训练崩溃或收敛缓慢。因此,为了降低训练难度,提高训练效率,受 ControlNet 工作的启发,作者将 MoE-Connector 最后一个 MLP 层初始化权重为全零。并将其输出的特征与原本编辑指令通过 T5 得到的特征在通道维度拼接起来。这样,T5 特征在训练的第 0 步完全不会被新加的模块所影响。
4. OpenVE-Bench 指令跟随视频编辑评测
现在还没有一个通用的并且与人类评价高度对齐的指令跟随的视频编辑评测。因此,作者提出了 OpenVE-Bench,一个人工精心挑选包含 8 类别共 431 条编辑对的评测集,并且对于每个类别均精心设计了 Instruction Consistency & Detail Fidelity, and Visual Quality & Stability 三个关键评测 Prompt,最终将编辑指令、原始视频、编辑后视频共同输入给 VLM 得到编辑分数。
5. 实验结果
a. 定量结果
作者对比了目前所有的视频编辑开源模型 VACE、OmniVideo、InsViE、ICVE、Lucy-Edit、DITTO 和闭源模型 Runway Aleph,在使用 80G 显存 GPU 复现开源模型过程中。OmniVideo 仅能生成 640*352 分辨率,17 帧的视频,其他分辨率和帧数都会导致视频异常。ICVE 模型仅能在 480*768 分辨率生成最多 41 帧的视频,更多帧数的生成会导致显存爆炸,因此使用 384*240 以保证所有帧被编辑。其他的模型都按照其训练的分辨率和输入视频的帧数对应进行生成。另外由于 Runway Aleph 费用的限制,作者在每类评测集上仅挑选 30 个样本进行测试与评分。
表 2 和 3 展示了现在所有指令跟随视频编辑模型在 OpenVE-Bench 上的评测结果。闭源的 Runway Aleph 模型在 Seed1.6VL 和 Gemini 2.5 Pro 两个评测模型上均取得了最出色的效果并且远超现有开源模型。开源的 VACE、OmniVideo 和 InsViE 由于模型参数的限制或者数据集的限制结果较差。Lucy-Edit 在 5B 的参数量下取得了比较平均的效果。ICVE 在 13B 参数量下取得了不错的效果,但高分辨率的编辑仅支持更少的帧数。DITTO 由于数据集主要为 global style 类型,因此其在这一指标上得分较高。作者的 OpenVE-Edit 仅 5B 的参数量取得了 2.41 的总指标,实现较小的参数量下超越了现有所有开源模型效果。
![]()
b. 定性结果
图 9 展示了作者的方法和现有开源 SOTA 方法的定性对比。选取了当前开源模型里最好的三个模型做对比。在左边的 Background Change 的例子里,Lucy-Edit 尽管实现了背景的变换,但是小狗没有保持与原视频一致。ICVE 错误的擦除了女人并且男人的长相也发生了变化。Ditto 错把墙上的画当作前景并且小狗的颜色变深。作者的方法能够在前景所有主体保持一致性的同时背景按照编辑指令改变。右边 Local Change 的例子中,Lucy-Edit 错误的将三个人的衣服全部编辑。ICVE 错误的对左边两个人编辑,并且人也发生了变化。Ditto 不仅编辑错了对象还错误地将背景改变了。作者的方法只按照编辑指令改变了对应女人的衣服并且保持其他男人和背景的一致性。
![]()
图 9: 与当前 SoTA 方法的定性比较结果,并举例说明背景变化(左)和局部变化(右)。





京公网安备 11011402013531号