当前位置: 首页 » 资讯 » 科技头条 » 正文

KTH与Adobe突破:视频物体实现积木式简易动态编辑迁移能力提升

IP属地 中国·北京 科技行者 时间:2026-04-09 18:52:56


这项由KTH皇家理工学院和Adobe研究院联合完成的研究发表于2026年3月31日,论文编号为arXiv:2603.29092v1,有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队开发了一种名为TrajectoryMover的全新技术,能够让视频编辑变得像在手机上移动图标一样简单。

想象你正在观看一个篮球比赛的视频,球员投篮但球没有进框。如果你想让这个球的轨迹稍微向左偏移一点,刚好投进篮筐,传统方法需要你重新拍摄整个画面,或者使用复杂的专业软件进行繁琐的逐帧编辑。但现在,研究团队开发的这项技术可以让你像在地图上拖动标记点一样,轻松改变球的运动轨迹。

这项研究的创新之处在于,它不仅仅是简单地移动物体位置,而是能够智能地理解物体与周围环境的关系。当你把一个掉落的球移动到新位置时,系统会自动计算它应该如何与地面碰撞、如何弹跳,甚至如何避开中间的障碍物。这就像是给视频添加了物理引擎,让移动后的画面看起来完全真实可信。

研究团队为了解决训练数据稀缺的问题,创造性地开发了一个名为TrajectoryAtlas的数据生成系统。这个系统就像一个虚拟的电影摄影棚,能够自动生成成千上万对训练视频:每一对视频都显示相同的场景,但其中的物体轨迹略有不同。通过这种方法,人工智能模型学会了如何在保持视频真实感的同时,灵活调整物体的运动路径。

一、简化视频编辑的全新思路

传统的视频编辑就像是在纸上画画然后用橡皮擦修改,既费时又容易出错。当你想要改变视频中某个物体的运动轨迹时,现有的方法要么需要你精确地绘制出物体在每一帧中的位置,要么需要重新拍摄整个场景。这就好比你想要调整一张全家福中某个人的位置,却需要重新安排所有人重新拍照一样麻烦。

现有的视频生成技术确实可以让用户指定物体的运动路径,但这就像是要求一个不会开车的人在复杂的城市道路中规划最优路线一样困难。用户需要考虑物理定律、碰撞检测、光影变化等众多因素,而且稍有不慎就会让视频看起来很假。更关键的是,这些方法往往要求用户提供非常详细的控制信息,比如物体在每个时刻的精确3D坐标,这对普通用户来说几乎是不可能完成的任务。

研究团队提出了一个根本性的改变思路:与其让用户费力地设计完整的运动轨迹,不如让他们简单地指出"我想让这个物体从这里移动到那里",然后由人工智能来负责计算出合理的运动过程。这就像是从手动驾驶汽车改为使用GPS导航系统,用户只需要告诉系统目的地,系统会自动规划出最佳路线并处理路途中的所有细节。

TrajectoryMover技术的核心理念是轨迹平移而非轨迹重设计。当你想要移动视频中的篮球时,系统不会要求你重新设计整个投篮动作,而是会保持原有的抛物线形状和旋转特性,只是将整个轨迹在空间中平移到新的位置。如果新位置会导致球撞到墙壁,系统会智能地调整轨迹,让球合理地弹跳而不是穿墙而过。

这种方法的优势在于它充分利用了原始视频中已有的物理合理性。原始视频中的物体运动通常都是真实拍摄的,因此本身就符合物理定律。通过保持这种真实性并只进行必要的调整,系统能够生成看起来非常自然的编辑结果。这就好比你有一首经典歌曲,只是将它的音调稍作调整,而不是重新谱曲,这样既保持了原有的美感,又满足了新的需求。

二、TrajectoryAtlas:虚拟世界中的数据工厂

训练一个能够智能移动物体轨迹的人工智能系统面临着一个巨大的挑战:现实世界中几乎不存在所需的配对训练数据。要理解这个困难,可以想象你想要训练一个人识别"同一个场景中物体位置稍有不同"的图片,但现实中很少有人会在完全相同的条件下,仅仅改变一个物体的位置就重复拍摄同一个场景。

为了解决这个问题,研究团队开发了TrajectoryAtlas数据生成流水线,这就像是建造了一个巨大的虚拟电影摄影棚。在这个摄影棚里,计算机可以精确控制每一个元素:场景布置、物体属性、光照条件、摄像机角度等等。更重要的是,它可以在完全相同的条件下重复"拍摄"同一个场景,只是每次让其中某个物体的运动轨迹略有不同。

这个虚拟摄影棚使用了来自Evermotion的室内场景库,这些场景包括各种真实的室内环境,从客厅到厨房,从办公室到卧室。物体库则包含了119个不同的物品,既有从Objaverse获取的98个真实物体的3D模型,也有21个基础几何体如球体、立方体等。这样的组合确保了生成的训练数据具有丰富的多样性。

数据生成过程就像是导演一部微型电影。系统首先在场景中随机选择一个合适的位置放置物体,确保物体在摄像机视野内且不会与场景中的其他物品发生不合理的重叠。然后,系统会为物体分配一种运动类型,比如自由下落、抛掷、滚动或拖拽运动。接下来,物理引擎开始工作,模拟物体在重力作用下的真实运动,包括与地面、墙壁和其他物体的碰撞反弹。

关键的创新在于系统能够生成成对的视频。对于每一个场景设置,系统会生成两个版本的视频:第一个视频显示物体从位置A开始运动,第二个视频显示同样的物体从位置B开始相同类型的运动。这两个位置之间的差异就是训练目标,人工智能需要学会如何将第一个视频转换为第二个视频。

物理仿真确保了生成的运动轨迹完全合理。当一个球从高处掉落时,它会按照真实的重力加速度下降;当它撞到地面时,会根据材料属性产生相应的弹跳;当它滚动时,会表现出真实的摩擦力效果。这种物理真实性是传统数据增强方法无法提供的,也是TrajectoryMover能够生成令人信服结果的关键基础。

为了进一步提高训练效果,系统还实现了智能的场景修改功能。当原始场景中存在太多障碍物可能阻挡物体运动时,系统会自动移除一些非结构性的物品,比如桌子上的装饰品或地面上的杂物,但会保留墙壁、地板等结构性元素。这就像是为拍摄准备布景时,移动一些家具来腾出拍摄空间,但不会拆掉房间的墙壁。

三、TrajectoryMover模型:智能的视频魔法师

TrajectoryMover的核心是一个经过精心设计的视频到视频生成模型,它就像是一个既懂物理学又精通艺术的智能助手。这个模型的工作原理可以用装修房间来类比:你给它看原始房间的照片,然后告诉它"我想把沙发从这里移动到那里",它就能生成一张新照片,显示沙发移动后的房间状态,而且还会自动调整光影效果和空间布局,让一切看起来自然和谐。

模型的输入非常简单直观。用户只需要提供原始视频,然后在视频的第一帧中用两个边界框标记出物体的当前位置和期望位置。这就像在地图应用中标记起点和终点一样简单。第一个红色框圈出要移动的物体,第二个绿色框指示物体的目标位置。有了这些信息,模型就能理解用户的意图并开始工作。

模型的架构基于Wan2.1-T2V-1.3B视频生成框架,这是一个在大量视频数据上预训练的强大基础模型。研究团队没有从零开始构建模型,而是巧妙地在这个已有基础上进行了专门的微调。这就好比在一个经验丰富的电影导演基础上,教会他一项新的专业技能,而不是培训一个完全的新手。

训练过程采用了双轨并行的策略。模型会交替进行两种类型的训练:一种是在真实视频上进行常规的视频生成训练,保持其原有的创造能力;另一种是在TrajectoryAtlas生成的配对数据上进行轨迹移动的专项训练。这种交替训练的比例设置为7:3,确保模型在学习新技能的同时不会忘记原有的视频生成能力。

模型的内部处理过程就像是一个精密的工艺流程。输入的视频首先通过视觉编码器转换为潜在表示,这相当于将视觉信息转换为计算机更容易处理的数字形式。控制信号同样被编码并与视频信息融合。然后,核心的变换器网络开始工作,它会分析原始视频中物体的运动模式,理解物体与环境的交互关系,并计算出移动后应该产生的新运动轨迹。

为了保持高效性,研究团队采用了参数高效的微调策略。他们只训练模型中的自注意力层和投影层,而冻结其他大部分参数。这就像是只对汽车的方向盘和油门进行调整,而保持发动机和传动系统不变。这种方法不仅减少了计算成本,还确保了基础模型的稳定性。

模型处理的视频规格为每秒16帧,分辨率832×480像素,包含81帧内容。在处理过程中,模型会将这81帧压缩为21个潜在帧进行计算,然后再还原为完整的输出视频。整个过程在配备8块H100 GPU的机器上进行了3200步训练,批量大小为16。

四、实验验证:与传统方法的全面比较

为了验证TrajectoryMover的实际效果,研究团队进行了全面的对比实验,就像是举办一场视频编辑技能大赛,让各种不同的方法同台竞技。他们从生成的21000个视频对中随机选择了40个作为测试集,每个测试案例都包含分辨率为1280×720的81帧视频。

参与比较的方法包括当前最先进的几种视频编辑技术。ATI方法专门处理2D轨迹控制,DaS方法擅长编辑3D运动轨迹,VACE支持基于边界框的轨迹引导,I2VEdit能够将第一帧的编辑传播到整个视频,而SFM则是一种3D感知的视频编辑方法。为了公平比较,研究团队为每种方法都准备了适合的输入格式,比如为需要3D轨迹的方法提供从深度估计中提取的轨迹信息。

评估指标的设计就像是为这场比赛制定评分标准。研究团队使用了三个核心指标:背景保持度用于测量编辑后背景内容的完整性,就像检查移动家具后房间其他部分是否保持原样;物体身份保持度用于评估移动后的物体是否还保持原有的外观特征,类似于检查搬家后的家具是否还是原来的那套家具;轨迹遵循度用于衡量物体是否按照预期路径移动,就像检查导航系统是否按照规划路线行驶。

实验结果显示TrajectoryMover在所有三个指标上都取得了最佳成绩。在背景保持方面,TrajectoryMover达到0.92分,远超其他方法的0.17到0.71分。在物体身份保持方面,得分0.45,同样领先于其他方法的0.15到0.39分。在轨迹遵循方面,得分0.27,虽然相对优势较小,但仍然是最高的。

用户研究进一步验证了这些客观指标的有效性。研究团队邀请了10名参与者进行盲测,每位参与者需要对25对匿名视频进行比较,选择运动效果更自然的一个。结果显示TrajectoryMover获得了最高的用户偏好得分1.25,而其他方法的得分都是负数,表明用户明显更偏好TrajectoryMover生成的结果。

定性分析揭示了不同方法的具体优劣。ATI和DaS方法虽然在轨迹控制方面相对较强,但由于它们使用的是简单的轨迹平移,无法处理复杂的场景交互,经常产生物理上不合理的运动。VACE在简单场景中表现尚可,但在复杂场景中容易出现物体重复或部分渲染的问题。I2VEdit在短期内表现良好,但随着时间推移容易出现物体消失或严重的轨迹漂移。SFM在粗略的轨迹跟随方面相对较强,但重建和编辑过程中的误差会导致物体变形或产生不需要的多实例现象。

相比之下,TrajectoryMover展现出了独特的优势:它能够直接从源视频和简单的重定位信号预测出本质上合理且场景感知的运动,而无需在测试时进行手动的轨迹特定调整。这种优势在复杂场景中尤为明显,比如当物体需要在横向移动的同时自然地调整到不同深度或支撑表面时。

五、技术细节与实现挑战

TrajectoryMover的实现过程就像是建造一座精密的钟表,每个组件都需要完美协调工作。整个系统的数据生成部分使用Blender Cycles进行渲染,这就像是使用专业摄影设备来拍摄每一帧画面,确保光影效果的真实感。物理仿真则依靠PyBullet引擎,它就像是一个虚拟的物理实验室,能够准确模拟重力、碰撞、摩擦等各种物理现象。

数据生成的规模令人印象深刻。最终的TrajectoryAtlas数据集包含超过21000个视频对,相当于43000多个RGB视频和43000多个二进制遮罩视频。训练集使用了20459个视频对,测试集包含1074个视频对。从运动类型分布来看,拖拽运动占据了最大比例,达到9537个视频对,这反映了日常生活中物体被拖拽移动的场景最为常见。抛投运动有3113对,滚动运动3162对,自由下落2867对,静态放置1564对,自由落体1290对。

训练过程的参数设置经过了精心优化。每帧图像被调整为832×480分辨率,序列长度限制为前81帧,在潜在空间中对应21个潜在帧。这种压缩比例在保持视频质量和计算效率之间取得了良好平衡。训练在配置8块H100 GPU的高性能计算平台上进行,总批量大小为16,训练步数为3200步。

为了深入了解各个设计选择的贡献,研究团队进行了详尽的消融实验。他们测试了仅使用基础几何体而非多样化Objaverse物体的效果,发现这种简化会导致物体身份保持能力显著下降,得分从0.45降至0.15。场景修改策略的实验显示,完全不进行场景修改或对所有场景都进行修改都会影响轨迹遵循性能。仅使用单一运动类型(如只有下落运动)的实验表明,运动类型的多样性对于模型泛化能力至关重要。

在处理不同类型运动时,系统展现了出色的适应性。对于自由下落运动,系统将物体的初始速度设为零,完全依靠重力产生运动。抛投运动则设置初始速度平行于相机方向并投影到地面,默认速度为6.0单位。滚动运动将物体置于支撑表面上,初始速度平行于相机方向且投影到支撑表面,默认速度为2.0单位。拖拽运动最为复杂,系统从三种预定义路径(圆形、S形和螺旋形)中随机选择一种,然后使用阻尼弹簧力将物体拉向目标点。

场景修改功能体现了系统的智能化程度。为了区分结构性物体和非结构性物体,系统使用基于物体名称和几何特征的启发式方法。例如,墙壁和地板被识别为大型平面几何体,或通过物体名称中包含"wall"、"floor"、"ceiling"等关键词来识别。系统计算名义轨迹走廊,移除与该走廊相交的非结构性物品,然后导出过滤后的碰撞网格并使用不变的运动参数重新运行任务。

六、突破性成果与应用前景

TrajectoryMover的研究成果可以说是在视频编辑领域投下了一颗重磅炸弹,它不仅解决了长期存在的技术难题,更为普通用户打开了创意表达的新大门。这项技术的突破性在于它首次实现了既简单又智能的视频物体轨迹编辑,就像是将专业的视频后期制作工具简化成了任何人都能使用的手机应用。

从技术层面来看,TrajectoryMover的最大贡献是证明了通过合理的数据设计和模型架构,可以让人工智能学会理解和操作视频中的物理运动。传统方法要求用户具备深厚的物理知识和技术技能,而这项技术让人工智能承担了所有复杂的计算工作,用户只需要表达"我想让这个球到那里"这样简单的意图即可。

在实际应用方面,这项技术的潜力几乎是无限的。对于内容创作者来说,它可以大大简化视频制作流程。体育视频编辑师可以轻松调整球类运动的轨迹,创造更精彩的慢镜头回放;教育视频制作者可以调整实验中物体的运动路径,更好地展示物理原理;广告制作公司可以快速调整产品展示视频中的物体位置,无需重新拍摄。

对于社交媒体用户和业余创作者而言,这项技术可能会催生全新的内容类型。人们可以拍摄一个简单的视频,然后通过调整其中物体的运动创造出意想不到的效果。比如让掉落的水果"飞"回手中,让滚动的球改变方向避开障碍物,或者让宠物的玩具按照更有趣的轨迹移动。

从商业价值角度来看,这项技术可能会显著降低视频后期制作的成本和门槛。传统的视频编辑往往需要专业团队花费数小时甚至数天时间才能完成的效果,现在可能只需要几分钟的简单操作。这种效率提升不仅能够节省制作成本,还能让更多的创意想法得以实现。

技术发展的前景同样令人兴奋。当前的TrajectoryMover主要处理单个物体的轨迹调整,未来的版本可能支持多物体同时编辑、更复杂的物理交互、甚至是动态场景的全局调整。随着计算能力的提升和算法的优化,处理时间将进一步缩短,视频质量将持续改善,支持的视频类型也会更加丰富。

不过,研究团队也诚实地指出了当前技术的局限性。TrajectoryMover目前在轨迹精确度方面还有提升空间,IoU得分0.27虽然是最好的,但距离完美还有距离。这反映了完全精确的生成式路径映射仍然是一个根本性的挑战任务。模型有时会为了保持物体身份和背景一致性而牺牲绝对的轨迹精度,这是当前技术架构下的一个权衡选择。

另外,目前的概念验证生成器还不能很好地泛化到任意的真实世界视频。研究团队计划通过额外的训练来改进生成器的泛化能力,使其能够处理更多样化的真实场景和拍摄条件。这种限制意味着短期内这项技术可能主要应用于特定类型的视频或需要一定的预处理步骤。

尽管存在这些局限性,TrajectoryMover已经展现出了巨大的潜力和实用价值。它不仅在技术指标上全面超越了现有方法,更重要的是它代表了视频编辑技术发展的一个重要方向:让复杂的专业技术变得简单易用,让创意表达变得更加自由。随着技术的不断完善和优化,我们有理由期待这种"拖拽式"视频编辑方式很快就会进入我们的日常生活,改变我们创造和分享视频内容的方式。

说到底,TrajectoryMover的真正意义不仅仅在于它解决了一个技术难题,更在于它为普通人打开了一扇通向创意表达的新大门。就像智能手机让每个人都成为了摄影师一样,这项技术可能会让每个人都成为视频魔法师,能够轻松创造出以前只有专业制作团队才能实现的神奇效果。当技术的复杂性被隐藏在简单的用户界面之后,创意的可能性就会呈指数级增长,这正是科技进步应有的模样。

Q&A

Q1:TrajectoryMover技术是如何工作的?

A:TrajectoryMover就像一个智能的视频魔法师。用户只需要在视频第一帧中用两个方框标记物体的当前位置和目标位置,系统就会自动计算出合理的运动轨迹,让物体从原位置移动到新位置。关键是系统不仅会移动物体,还会智能地处理物体与环境的交互,比如碰撞、弹跳等,确保移动后的视频看起来完全真实。

Q2:这项技术比传统视频编辑方法有什么优势?

A:最大的优势是简单易用。传统方法需要用户手动绘制物体在每一帧的精确位置,或者重新拍摄整个场景,就像要求不会开车的人在复杂道路中规划路线一样困难。而TrajectoryMover只需要用户指出起点和终点,系统会自动处理所有复杂的物理计算和路径规划,让视频编辑变得像在手机上移动图标一样简单。

Q3:普通用户什么时候可以使用TrajectoryMover技术?

A:目前这项技术还处于研究阶段,主要在合成视频上表现出色,对真实世界视频的泛化能力还在改进中。研究团队正在进行额外训练来提升系统对各种真实场景的处理能力。预计随着技术的不断完善,未来可能会集成到专业视频编辑软件或消费级应用中,让普通用户也能体验到这种革命性的视频编辑方式。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。