超越Runway！Adobe发布新神器：P视频比P图还简单

IP属地中国·北京 新智元 时间：2025-10-25 10:11:56

新智元报道
编辑：LRST
全新AI工具EditVerse将图片和视频编辑整合到一个框架中，让你像P图一样轻松P视频。通过统一的通用视觉语言和上下文学习能力，EditVerse解决了传统视频编辑复杂、数据稀缺的问题，还能实现罕见的「涌现能力」。在效果上，它甚至超越了商业工具Runway，预示着一个创作新纪元的到来。
你是否曾有过这样的经历：
用Hunyuan- Image、nano-banana等各类AI软件修图已经得心应手，但面对视频编辑，却需要打开有着复杂时间线和特效面板的视频剪辑软件（PR/FCPX），瞬间感觉「我不会了」。
图片编辑和视频编辑，仿佛是两个次元的技能树。
但如果，有一个工具，能让你像P图一样P视频呢？
今天，这个颠覆性的工具来了！
由香港中文大学、Adobe Research、约翰霍普金斯大学的研究员们联合推出的EditVerse，是一个划时代的AI模型，彻底打破了图片和视频创作之间的壁垒，用一个统一的框架，实现了对图像和视频的自由编辑与生成。

论文链接：https://arxiv.org/abs/2509.20360
项目主页：http://editverse.s3-website-us-east-1.amazonaws.com/
测试代码：https://github.com/adobe-research/EditVerse
完整结果：http://editverse.s3-website-us-east-1.amazonaws.com/comparison.html
无论是生成音乐音符特效，还是给跳舞的人物加上一对闪亮的翅膀，你只需要输入一句话，EditVerse就能帮你实现。
EditVerse视频编辑能力展示
「数据孤岛」
视频编辑为何如此之难？
长期以来，AI视频编辑的发展远远落后于图片编辑。究其原因，主要有两大「天堑」：
架构的「隔阂」：传统的AI模型，要么是专为图片设计的，要么是专为视频设计的。想让一个图片编辑模型去处理视频，或者反之，都极其困难，需要复杂的魔改和适配。这导致了工具的碎片化。
数据的「饥荒」：高质量的、带有「编辑指令-编辑后」配对的视频数据集极其稀少。相比于数以亿计的图像编辑数据，视频领域的「养料」严重不足，这极大地限制了AI的学习和进化。
这些难题，使得过去的AI视频编辑工具要么功能单一，要么效果不尽人意，始终无法像图片编辑那样灵活和强大。
EditVerse的「破壁」之道
EditVerse的革命性，在于它用一套全新的「世界观」和方法论，同时解决了架构和数据的双重难题。
核心思想一：创造一种「通用视觉语言」

EditVerse交错文本与视觉模式的示例。EditVerse 能够处理任意分辨率、时长和顺序位置的图像与视频输入和输出。
EditVerse做的第一件事，就是教会AI用同一种方式去「阅读」世界上所有的视觉信息。它创新地将文本、图片、视频全部转换成一种统一的、一维的「数据流」（Token序列）。这就像是发明了一种「世界语」，让原本说着不同方言（图片编码 vs 视频编码）的AI，现在可以用同一种语言进行交流和思考。
核心思想二：强大的「上下文学习能力」

EditVerse 模型结构。研究人员设计了一个统一的图像和视频编辑与生成框架，将文本与视觉输入处理为统一的序列。图中右侧展示了位置信息编码设计（RoPE位置编码）。该框架利用全自注意力机制，以促进强大的上下文学习能力，并实现跨模态的高效知识迁移。
有了「通用语言」后，EditVerse采用了一个基于全自注意力机制（Full Self-attention）的强大Transformer架构。通过将所有信息流在序列维度拼接在一起，EditVerse模型可以直接通过attention的上下文学习能力将不同图片、视频和文字中的信息关联起来。
你可以把它想象成一位「上下文学习大师」，它能一口气读完包含指令、原始画面的整段「数据流」，并精准理解其中每个部分之间的关联。
比如「把左边女人的裙子变成中的裙子」，全注意力机制能准确地将文本指令、视频中的特定人物和图片中的服装关联起来。
同时，这种设计使得EditVerse能够灵活处理任意分辨率、任意时长的输入，真正做到了「随心所欲」。
核心思想三：搭建一座「知识迁移的桥梁」
这正是EditVerse最巧妙的地方。因为它使用一套统一的框架同时处理图片和视频，所以它能将在海量的图片编辑数据中学到的知识（比如什么是「火焰特效」、「水彩画风格」），无缝迁移并应用到视频编辑任务中。
这座「知识桥梁」极大地缓解了视频数据稀少的问题，让模型能够举一反三，展现出惊人的创造力和泛化能力。
训练数据与首个多分辨率视频编辑评测基准
光有聪明的「大脑」（模型架构）还不够，还需要海量的「知识」（训练数据）和公平的「考官」（评测基准）。
面对视频编辑数据稀缺的困境，EditVerse团队首先建立了一条可扩展的数据生产线。
他们利用各种先进的专用AI模型，先自动生成海量的视频编辑样本（例如物体移除、风格转换等），然后通过一个视觉语言模型（VLM）进行打分和筛选，最终精选出23.2万个高质量的视频编辑样本用于训练。
这批视频编辑数据，与600万图像编辑样本、390万视频生成样本、190万图像生成样本等海量数据混合在一起，共同训练EditVerse，从而使模型拥有更好的知识迁移理解能力。
此外，为了科学、公正地评估模型的能力，团队还推出了业界首个针对指令式视频编辑的综合性评测基准——EditVerseBench。这个评测基准包含了100个不同分辨率的视频，覆盖了多达20种不同的编辑任务，从简单的物体添加，到复杂的风格变换，确保能全面地检验每个模型的真实水平。

EditVerseBench示例。EditVerseBench包含200组编辑样本，均匀分布在20个编辑类别中，视频涵盖横向和纵向两种方向。
能力展示
当想象力没有边界
EditVerse不仅统一了工作流，其编辑效果更是达到了业界顶尖水准，在人工评估（Human Evaluation）上更是超过了商业模型Runway Aleph。
下面通过一些真实的案例，感受它的强大。
EditVerse与过往方法的完整效果对比
为了进行大规模、客观的自动化评测，团队从多个角度进行了对于各个模型的评测
视频质量 (Video Quality): 使用与人类审美高度相关的PickScore进行评分。
文本对齐 (Text Alignment): 分别在单帧和整个视频层面，计算编辑结果与文字指令的语义匹配度。
时间一致性 (Temporal Consistency): 通过计算相邻帧之间的特征相似度，来判断视频是否流畅、无闪烁。
视觉语言模型（VLM）GPT-4o评分（VLM Evaluation）：它会从指令遵循度、编辑质量、背景一致性等多个角度为生成结果打分。
在EditVerseBench基准测试上，EditVerse与现有主流方法进行了对比，结果显示其全面领先于所有开源模型。更值得注意的是，在最符合人类偏好的VLM评分上，EditVerse超越了闭源商业模型Runway Aleph。

在EditVerseBench上的定量比较。对于开源研究模型，研究人员比较了两种无需训练的方法（TokenFlow和STDF）、一种首帧传播方法（Señorita-2M），以及一种基于指令的视频编辑方法（InsV2V）。最佳结果以粗体标出。还提供了一个商业模型Runway Aleph的结果。尽管由于基础模型的差异，EditVerse在生成质量上略逊于Runway Aleph，但EditVerse在编辑忠实度上（通过基于视觉语言模型的编辑质量评估）超越了它，与人类评估结果更加一致。
在编辑领域，用户的真实偏好最有说服力。在真人评测环节中，评测者在不知道模型来源的情况下，对不同模型生成的视频进行投票。
结果再次印证了EditVerse的优势：它不仅对开源模型取得了压倒性的胜利（例如对InsV2V的胜率高达96.9%），面对商业模型Runway Aleph，也有51.7%的用户认为EditVerse的效果更好。

人类评估结果
EditVerse的「涌现能力」从何而来？
在测试过程中，研究人员发现了一个令人兴奋的现象：EditVerse经常能完成一些它从未在视频数据中学过的任务。
比如，指令是「把乌龟变成水晶材质」或「给天空加上延时摄影效果」，尽管它的视频训练集中并没有这类「材质变换」或「特效添加」的专项数据，但模型依然能出色地完成。
这种「无师自通」的能力，就是AI领域备受关注的「涌现能力」（Emergent Ability）。
这背后的秘密，正是前文提到的那座「知识迁移的桥梁」在发挥关键作用。
想象一下，EditVerse就像一位学徒，阅读了600万本关于「静态绘画」的顶级教材（图片编辑数据），却只看了28.8万份关于「动态影像」的简报（视频编辑数据）。
然而，他从海量绘画教材中学到了关于光影、构图、材质、风格的深刻原理。当他处理动态影像时，他能将这些底层艺术原理灵活运用，从而「领悟」出视频中如何表现「水晶质感」或「天气变化」，即便简报里从未提过。
为了验证这一猜想，团队进行了一项关键的消融实验：他们拿走那600万本「绘画教材」（即移除图片编辑数据），只用视频数据来训练模型。
结果不出所料，新模型的视频编辑能力发生了断崖式的下跌。
另外，团队还发现，如果将视频生成训练数据移除，模型效果同样会下降，这说明了模型是从图片编辑+视频生成两者各取其长，涌现出了视频编辑的能力。

关于训练数据的消融研究。

训练数据消融实验的可视化结果。图像数据起到了关键作用。
这项实验无可辩驳地证明了：正是从海量、多样化的图像数据中汲取的深层知识，赋予了EditVerse在视频领域举一反三、触类旁通的「涌现能力」。
它甚至能创造出比其训练数据质量更高的作品，因为它不是在死记硬背，而是在真正地理解和创造。

将EditVerse的生成结果与真实数据进行比较。结果显示，EditVerse能够通过从图像和视频生成数据中提取知识，生成质量超越真实数据。
一个创作新纪元的开启
EditVerse的出现，其意义远不止于一个强大的工具，它预示着一个全新的内容创作范式的到来，从分离到统一，从繁琐到简洁。
EditVerse正在做的，是将专业级的视觉编辑能力，真正地普及给每一个有创意的人。
作者简介

鞠璇，香港中文大学计算机科学与工程博士生，研究方向为图像视频生成、理解生成统一模型等，曾在Meta、可灵、Adobe、腾讯、IDEA、商汤等多个公司实习。
参考资料：
https://arxiv.org/abs/2509.20360

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

谷歌Nano Banana 2又刷屏了：又快又便宜，设计师当场破防

Seedance2.0炸场后，又一中国黑马登顶AA榜单！AI味没了

派拉蒙1110亿美元报价胜出！奈飞宣布退出华纳兄弟收购战，盘后股价大涨

奥海推出210W星舰Pro移动电源，10000mAh售399元

国家能源局：我国电动汽车充电基础设施（枪）总数达2069.8万个

阶跃星辰杀入季后赛，强势跻身AI“新六小虎”第一梯队

全站最新

谷歌Nano Banana 2又刷屏了：又快又便宜，设计师当场破防

Seedance2.0炸场后，又一中国黑马登顶AA榜单！AI味没了

派拉蒙1110亿美元报价胜出！奈飞宣布退出华纳兄弟收购战，盘后股价大涨

奥海推出210W星舰Pro移动电源，10000mAh售399元

热门推荐

谷歌Nano Banana 2又刷屏了：又快又便宜，设计师当场破防

Seedance2.0炸场后，又一中国黑马登顶AA榜单！AI味没了

派拉蒙1110亿美元报价胜出！奈飞宣布退出华纳兄弟收购战，盘后股价大涨

奥海推出210W星舰Pro移动电源，10000mAh售399元

国家能源局：我国电动汽车充电基础设施（枪）总数达2069.8万个

阶跃星辰杀入季后赛，强势跻身AI“新六小虎”第一梯队

高德智感亮相德国IWA户外用品展树立行业新标杆

华为在马德里举办全球创新产品发布会，专业跑表领衔，多款新品重磅发布

反转！吓崩华尔街的AI末日预言报告被证伪，纳斯达克道琼斯全白跌

不再续航焦虑我国汽车充电枪已达2070万个大增近50%

爱奇艺2025：保盈利，等转机

腾讯视频因“VIP抢先看”被用户起诉，最新进展：案件将于3月19日开庭

又一国产全模态视频大模型杀入Artificial Analysis榜单Top 2

vivo X300 Ultra手机将于MWC 2026亮相

广汽丰田铂智7车型3月5日预售：鸿蒙座舱、Momenta智驾