这项由Meta GenAI团队的希拉·切弗(Hila Chefer)与特拉维夫大学的科研人员共同完成的研究,发表在2025年第42届国际机器学习大会(ICML 2025)上。有兴趣深入了解的读者可以通过论文官网 https://hila-chefer.github.io/videojam-paper.github.io/ 访问完整论文和演示效果。
过去几年,AI生成视频的技术突飞猛进,从模糊不清的几秒钟片段发展到能够生成相当逼真的视频内容。然而,任何尝试过这些工具的人都会发现一个让人头疼的问题:生成的视频看起来确实很漂亮,画面质量也越来越好,但里面的人物和物体经常做出一些违反常理的动作。
比如,当你让AI生成一个"慢跑者"的视频时,画面中的人可能会反复踩在同一条腿上,完全违背了人类跑步的基本动作模式。或者让AI生成一个体操运动员做侧手翻的视频,结果人物可能会突然长出额外的手臂,或者身体出现奇怪的扭曲变形。更令人哭笑不得的是,当AI试图生成一个女性转呼啦圈的视频时,呼啦圈可能会直接穿过人的身体,完全无视物理定律。
这种现象不仅仅出现在复杂动作上。即使是最基本的动作,比如简单的慢跑,AI也经常搞砸。更令研究者困惑的是,这些基本动作在训练数据中应该是非常常见的,按理说AI应该能够很好地学会才对。这说明问题的根源可能不在于数据量的多少,而在于AI学习方式的某些根本性缺陷。
Meta和特拉维夫大学的研究团队深入研究了这个问题,他们发现了一个关键洞察:现有的视频生成模型就像一个只关注"颜值"而忽视"内在"的摄影师。这些模型在训练过程中主要关注如何让每一帧画面看起来更漂亮、更逼真,却没有足够重视帧与帧之间的运动连贯性和物理合理性。
为了解决这个问题,研究团队开发了一个名为VideoJAM的创新框架。这个名称来自"Joint Appearance-Motion"的缩写,意思是"联合外观-运动"表示学习。简单来说,VideoJAM就像给AI配了一副特殊的眼镜,让它不仅能看到画面的外观,还能"看到"物体的运动轨迹和动作规律。
VideoJAM的核心创新在于让AI同时学习两种信息:一是传统的视觉外观信息(物体长什么样),二是专门的运动信息(物体如何移动)。就好比教一个人跳舞时,不仅要让他看到舞蹈动作的静态造型,还要让他理解音乐的节拍和身体的流动性。
研究团队的实验结果令人印象深刻。在多项测试中,使用VideoJAM技术的AI模型在运动连贯性方面大幅超越了之前的最先进模型,甚至在某些指标上超过了一些商业化的专有模型,比如Sora和Kling等。更重要的是,这种改进不仅提升了动作的合理性,连带着也让整体的视觉质量有所提升,证明了运动和外观其实是相互促进的,而不是互相冲突的。
这项研究的另一个亮点是其通用性和实用性。VideoJAM不需要对现有模型进行大规模改造,只需要添加两个简单的线性层就能显著提升效果。这意味着各种现有的视频生成模型都可以相对容易地集成这项技术,而不需要从头开始重新训练。
一、问题的根源:当AI只会"看脸"不会"看动作"
要理解VideoJAM解决的问题,我们需要先搞清楚为什么现有的AI视频生成模型会在动作方面表现得如此糟糕。
研究团队进行了一个非常有趣的实验来揭示问题的本质。他们故意把一些训练视频的帧序列打乱,把原本连贯的动作视频变成时间顺序完全混乱的片段,然后观察AI模型的反应。按照常理,如果AI真的理解动作和时间顺序,那么面对这些被打乱的视频,它应该能察觉到异常并表现出更高的错误率。
然而实验结果令人震惊:在生成过程的前60个步骤中,AI模型对于视频帧序列是否被打乱几乎毫无感知。换句话说,AI无法区分一个正常的跑步视频和一个帧序列被随机打乱的"伪跑步视频"。这就好比一个人完全分不清正常播放的电影和被剪辑师恶意打乱顺序的电影片段。
进一步的分析显示,这前60个生成步骤恰恰是决定视频整体运动结构的关键阶段。在这个阶段,AI应该确定物体如何移动、遵循什么样的运动轨迹。但现有模型在这个最关键的时期对运动信息几乎"视而不见",只专注于让每一帧画面看起来漂亮。
这种现象的根本原因在于传统训练方法的局限性。现有的视频生成模型采用基于像素重建的训练目标,简单来说就是让AI努力生成与真实视频在像素层面尽可能相似的画面。这种方法天然地偏向于优化视觉外观,因为颜色、纹理、光照等外观特征在像素层面的贡献最为明显。
相比之下,运动信息对像素层面差异的贡献相对较小。一个人是向前跑还是原地踏步,在单帧画面上可能差别不大,但在运动连贯性上却是天壤之别。传统的训练方法很难捕捉到这种跨帧的运动模式,因此AI学会了如何让画面好看,却没有学会如何让动作合理。
为了验证这个理论,研究团队还进行了一个补充实验。他们选择了不同的生成时间点来观察AI的行为。结果发现,在生成的早期阶段(前20步),AI对帧序列混乱非常敏感,因为这时候还在确定整体的画面布局。在生成的后期阶段(80步之后),AI同样对混乱很敏感,因为这时候在精修细节。但在中间的关键阶段(20-60步),AI对运动的混乱程度几乎无感,这正是运动连贯性应该被确定的关键时期。
这个发现解释了为什么即使是在训练数据中大量存在的简单动作,AI也经常搞错。问题不在于AI没有见过这些动作,而在于它从一开始就没有被训练去关注动作的时间连贯性和物理合理性。
二、VideoJAM的巧妙设计:给AI装上"动作雷达"
面对这个根本性问题,研究团队设计了VideoJAM框架,其核心理念是让AI同时掌握两套"语言":外观语言和运动语言。
VideoJAM的设计可以比作给汽车同时安装GPS导航和雷达系统。传统的AI就像只有GPS的汽车,能知道目的地在哪里(想要什么样的画面),但看不清路上的动态障碍(运动规律)。VideoJAM则给AI额外装上了"动作雷达",让它不仅能看到静态的画面目标,还能感知动态的运动模式。
在技术实现上,VideoJAM采用了光流(optical flow)作为运动信息的载体。光流听起来很专业,但其实概念很简单:它记录了画面中每个像素点从一帧到下一帧是如何移动的。想象在下雨天拍摄车窗,雨滴在玻璃上留下的轨迹就类似于光流信息。
研究团队将这种光流信息转换成彩色图像的形式,就像把风的方向和强度用不同颜色的箭头标注在地图上一样。在这种表示方法中,不同的颜色代表不同的运动方向,颜色的深浅则代表运动的快慢。这样,AI就能像人类看彩色地图一样直观地"看到"运动信息。
VideoJAM的训练过程分为两个关键步骤。第一步是让AI学会同时理解外观和运动。研究团队在原有模型的基础上添加了两个新的连接层,就像在原有的神经网络中安装了两个新的"翻译器"。输入端的翻译器负责将外观信息和运动信息融合成统一的内部表示,输出端的翻译器则负责从这个融合表示中同时预测外观和运动。
这种设计的巧妙之处在于强迫AI建立一个能够同时包含外观和运动信息的内部表示。就好比教一个人同时用中文和英文思考同一个概念,最终这个人会形成一种更丰富、更全面的理解方式。
在训练阶段,AI不仅要预测下一帧的画面长什么样,还要预测画面中的物体将如何运动。这种双重任务迫使AI必须同时关注外观的合理性和运动的连贯性,不能再像以前那样只顾"颜值"不顾"动作"。
三、内在引导机制:让AI自己纠正动作错误
仅仅让AI学会理解运动还不够,关键是要确保它在生成视频时真正重视运动的合理性。为此,研究团队开发了一种称为"内在引导"(Inner-Guidance)的机制。
这种机制可以比作给AI配备了一个内在的"动作教练"。在传统方法中,AI生成视频时只有一个目标:让画面看起来像真实视频。而内在引导机制为AI添加了额外的内在约束:生成的画面不仅要好看,其中的运动也必须符合AI自己预测的运动模式。
内在引导的工作原理颇为巧妙。在每一个生成步骤中,AI不仅会产生对下一帧画面的预测,还会产生对相应运动的预测。然后,内在引导机制会检查这两个预测是否互相匹配。如果画面预测显示一个人在向右跑,但运动预测显示他在向左移动,那么引导机制就会调整生成过程,确保两者保持一致。
这种方法的创新之处在于,它利用了AI自己的运动预测作为引导信号,而不是依赖外部固定的约束。就像一个人在跳舞时不仅要听音乐,还要感受自己身体的节拍,确保动作与内在的节奏感保持协调。
从数学角度来看,内在引导修改了AI的生成概率分布。传统方法只考虑"给定文本提示,生成什么样的画面最合理"。内在引导则同时考虑"给定文本提示和运动预测,生成什么样的画面最合理"。这种多重约束确保了生成结果在多个维度上都保持合理性。
研究团队在设计内在引导时面临了一个技术挑战:与传统的引导方法不同,运动预测本身是由AI模型产生的,因此它与模型的权重和其他条件存在复杂的依赖关系。这就像试图用镜子中的自己来指导自己的动作一样,需要处理复杂的反馈循环。
为了解决这个问题,研究团队重新推导了引导机制的数学公式,确保即使在这种自引用的情况下,整个系统仍然稳定可靠。他们的解决方案不仅在理论上更加严谨,在实际应用中也表现出更好的效果。
四、令人印象深刻的实验结果
为了验证VideoJAM的效果,研究团队进行了大量的对比实验,结果令人印象深刻。
研究团队首先构建了一个专门的测试基准,称为VideoJAM-bench。这个基准包含128个精心设计的提示词,涵盖了四类对AI最具挑战性的运动类型:基础运动(如慢跑、走路)、复杂运动(如体操、舞蹈)、旋转运动(如转陀螺、转篮球)和物理交互(如呼啦圈、球类运动)。
在基础运动测试中,VideoJAM展现出了显著的改进。当要求生成"慢跑者沿着岩石海岸线奔跑"的视频时,传统模型经常产生不自然的步伐,比如反复踩在同一条腿上。而VideoJAM生成的视频中,人物的步伐节奏自然,左右腿交替明确,完全符合真实跑步的运动模式。
在复杂运动方面,差异更加明显。传统模型在生成"男子做侧手翻"时,经常出现身体严重变形,有时甚至产生额外的肢体。VideoJAM则能够保持人体结构的完整性,动作流畅自然,虽然不是专业水平,但至少符合基本的人体运动规律。
物理交互的测试结果最为引人注目。在"女性转呼啦圈"的测试中,传统模型生成的呼啦圈经常穿过人体,完全违背物理定律。VideoJAM生成的视频中,呼啦圈始终围绕腰部运动,与人体保持合理的物理关系。
研究团队还与市面上最先进的商业模型进行了对比,包括OpenAI的Sora、快手的Kling以及Runway的Gen3等。在人类评估中,评估者在82%的情况下认为VideoJAM在运动连贯性方面优于其基础模型,在与Sora、Kling等商业模型的对比中,VideoJAM也分别在68.5%和63.8%的情况下被认为运动效果更好。
更令人惊喜的是,VideoJAM不仅改善了运动质量,还提升了整体的视觉效果。在视觉质量的评估中,人类评估者在77.3%的情况下认为VideoJAM的整体效果优于基础模型。这证明了运动和外观并非零和关系,而是可以相互促进的。
自动化评估指标也支持了这些发现。在运动平滑度指标上,VideoJAM达到了93.7分(满分100),而基础模型只有78.3分。在动态程度指标上,VideoJAM也从基础模型的38.3分提升到87.5分,说明生成的视频不仅运动更连贯,运动量也更丰富。
五、深入的技术分析和局限性探讨
为了更好地理解VideoJAM的工作机制,研究团队进行了详尽的消融实验,分析了框架中每个组件的贡献。
首先,他们测试了去除文本引导的效果。结果显示,当只使用运动引导而不使用文本引导时,模型的运动连贯性仍然比基础模型好63.3%,但整体效果有所下降。这说明文本引导和运动引导各自发挥着重要作用,需要协同工作才能达到最佳效果。
接着,他们测试了去除内在引导机制的影响。实验发现,没有内在引导的VideoJAM在运动质量上的提升幅度减少了约15%。这证明了内在引导机制确实在帮助模型更好地利用学到的运动知识。
最有趣的是对比不同引导策略的实验。研究团队将他们的内在引导方法与现有的InstructPix2Pix引导方法进行了对比。结果显示,内在引导在运动连贯性上的表现明显更好,验证了针对运动信息的特殊设计确实比通用方法更有效。
然而,VideoJAM也存在一些局限性。研究团队坦诚地讨论了这些不足之处。
首先是"变焦"场景的处理问题。当画面中的运动物体占据很小的区域时,比如"降落伞手展开降落伞"这样的远景镜头,VideoJAM的效果会打折扣。这是因为光流信息在这种情况下变得非常稀疏,难以提供足够的运动约束。研究团队分析认为,这主要是由于训练分辨率的限制和运动表示方法的制约。
其次是复杂物理交互的处理能力仍有不足。虽然VideoJAM在简单的物理交互(如呼啦圈)方面表现良好,但对于更复杂的多物体交互,比如"足球运动员踢球"时球与脚的精确接触,仍然存在挑战。这主要是因为光流表示方法缺乏对复杂物理约束的显式编码。
训练效率也是一个需要考虑的因素。虽然VideoJAM只需要在原有模型基础上进行微调,但仍然需要重新计算所有训练视频的光流信息,这在计算资源方面有一定的开销。不过研究团队指出,这种开销是一次性的,而且相比于从头训练新模型,仍然要经济得多。
六、技术创新的深层意义
VideoJAM的成功不仅仅是一个具体技术问题的解决,它还揭示了AI视频生成领域的一些深层规律和未来发展方向。
最重要的洞察是确认了多模态学习的价值。传统观点认为,更大的模型规模和更多的训练数据总能解决质量问题。但VideoJAM的成功说明,有时候问题不在于"量"而在于"质"——即如何让AI学习更合适的表示方式。通过显式地引入运动信息,AI能够建立更丰富、更全面的世界理解。
这种思路可能对其他AI任务也有启发意义。在自然语言处理中,是否也可以通过显式建模语义关系来提升效果?在图像生成中,是否可以通过显式建模空间几何来改善质量?VideoJAM提供了一个成功的范例,说明领域知识的显式引入往往比单纯的规模扩张更有效。
VideoJAM的另一个重要贡献是证明了外观和运动的协同效应。长期以来,研究者认为视觉质量和运动质量之间存在权衡关系,提升一个可能会损害另一个。VideoJAM的实验结果打破了这种固有认知,表明合理的运动约束实际上能够提升整体的视觉质量。这种协同效应可能来自于运动信息提供的额外约束,帮助模型避免生成不合理的画面内容。
从工程实用性角度来看,VideoJAM展示了"轻量级改进"的威力。与需要数百万美元训练成本的大型模型相比,VideoJAM只需要添加少量参数和有限的微调就能带来显著改进。这种高效的改进方式对于资源有限的研究团队和公司来说特别有价值。
七、对行业发展的影响和应用前景
VideoJAM的成功可能会推动整个AI视频生成行业的发展方向。
在短期内,我们可能会看到更多研究团队采用类似的多模态学习方法。VideoJAM使用光流作为运动表示,但其他形式的运动信息,比如3D姿态、深度信息、甚至音频节拍,都可能成为新的研究方向。每种模态信息都可能为AI提供独特的约束和指导。
商业应用方面,VideoJAM的通用性使得现有的视频生成服务可以相对容易地集成这项技术。无论是短视频平台的内容生成、影视制作的预览制作,还是教育培训的动画制作,都可能从更连贯的运动生成中受益。
特别值得关注的是在专业领域的应用潜力。在体育训练中,教练可能会使用改进的AI来生成标准动作的示范视频。在医疗康复中,治疗师可能会用AI生成患者练习的参考动作。在工业培训中,安全操作的演示视频也可能更加准确和有用。
从技术发展趋势来看,VideoJAM可能代表了AI视频生成从"模仿表面"向"理解本质"的转变。未来的研究可能会进一步探索如何让AI理解更深层的物理规律、社会常识和因果关系,而不仅仅是像素层面的相似性。
不过,这种技术进步也带来了一些需要思考的问题。随着AI生成视频越来越逼真,如何区分真实内容和AI生成内容变得更加重要。研究团队在论文中也提到了这个问题,强调了开发检测技术和建立使用规范的重要性。
八、研究方法的创新性分析
VideoJAM在研究方法上的创新值得深入分析,因为这些创新可能对未来的研究具有指导意义。
首先是问题诊断方法的创新。研究团队没有直接着手改进算法,而是先通过巧妙的实验设计深入分析了问题的根源。"打乱帧序列"的实验设计既简单又有效,直接揭示了现有模型对时间信息不敏感的核心问题。这种"先诊断再治疗"的研究思路值得其他研究者借鉴。
其次是多层次验证的研究设计。VideoJAM的验证不仅包括定量指标,还包括定性分析、消融实验、对比实验等多个层面。特别是人类评估的引入,为自动化指标提供了重要的补充验证。这种全方位的评估方法增强了研究结果的可信度。
在基准构建方面,VideoJAM-bench的设计也体现了研究者的深思熟虑。与现有基准相比,这个新基准更加关注运动质量而非静态美观,填补了评估体系的空白。基准的分类设计(基础运动、复杂运动、旋转运动、物理交互)覆盖了AI视频生成的主要挑战场景。
技术实现上的"最小侵入性"设计也值得称道。VideoJAM只添加了两个线性层,这种轻量级的改进既降低了实现难度,也提高了技术的可移植性。这种设计哲学——用最小的改动获得最大的效果提升——在工程实践中具有重要价值。
九、未来研究方向的展望
基于VideoJAM的成功,研究团队和整个领域都可能在几个方向上继续深入探索。
运动表示方法的改进是一个自然的延伸方向。虽然光流信息已经带来了显著改进,但它仍然是一种相对简单的运动表示。未来的研究可能会探索更复杂的运动表示,比如3D运动场、语义级运动描述或者基于物理的运动模型。
多尺度运动建模也是一个有前景的方向。当前的VideoJAM主要关注像素级的运动,但人类对运动的理解是多层次的:从关节运动到整体姿态,从局部动作到全局行为。如何让AI建立这种层次化的运动理解是一个重要挑战。
跨模态的运动学习可能会带来新的突破。音频信息经常与视觉运动高度相关,比如脚步声与走路动作、音乐节拍与舞蹈动作。如何将听觉信息整合到运动建模中是一个有趣的研究方向。
从更长远的角度看,物理知识的显式整合可能是下一个重要突破点。VideoJAM已经在一定程度上改善了物理合理性,但仍然是通过数据驱动的方式学习,而非基于物理定律的约束。如何将牛顿力学、流体动力学等物理知识直接整合到AI模型中,是一个既有挑战性又有实用价值的研究方向。
十、技术普及与应用的思考
VideoJAM的成功也引发了关于技术普及和应用的一些思考。
从技术门槛角度来看,VideoJAM的相对简单性是一个优势。与需要巨大计算资源的大型模型相比,VideoJAM的改进可以在相对有限的资源下实现。这可能会加速技术的普及,让更多的研究团队和小公司能够受益于这种改进。
然而,技术普及也带来了新的挑战。随着AI生成视频质量的提升,如何防止技术被滥用变得更加重要。研究团队在论文中也强调了这一点,呼吁开发相应的检测技术和使用规范。
在教育和培训应用方面,VideoJAM可能会产生积极影响。更准确的动作生成可以帮助创建更好的教学视频,特别是在体育、舞蹈、技能培训等需要精确动作示范的领域。这种应用不仅有商业价值,也有社会价值。
对于内容创作行业,VideoJAM可能会改变创作流程。传统的视频制作需要大量的人力和时间,而改进的AI生成技术可能会让创作者更专注于创意和故事,而非技术细节。当然,这种变化也需要行业逐步适应和规范。
说到底,VideoJAM代表的不仅仅是一个技术进步,更是AI理解世界方式的一个重要转变。从单纯模仿表面现象到理解内在规律,从孤立学习单一模态到协同学习多种信息,这种转变可能会影响整个AI领域的发展方向。虽然当前的技术仍有局限性,但它为我们展示了一个更智能、更可靠的AI未来的可能性。对于普通用户来说,这意味着将来可能会享受到更自然、更令人信服的AI生成视频内容。对于研究者来说,这提供了一个重要的范例,说明有时候解决问题的关键不在于更大的模型或更多的数据,而在于更深入的理解和更巧妙的设计。
Q&A
Q1:VideoJAM技术是什么?它解决了什么问题?
A:VideoJAM是Meta和特拉维夫大学开发的视频生成改进技术,主要解决AI生成视频中动作不连贯的问题。传统AI生成的视频画面很漂亮,但人物动作经常违反常理,比如跑步时重复踩同一条腿,或呼啦圈穿过身体。VideoJAM通过让AI同时学习外观和运动信息,显著提升了动作的合理性和连贯性。
Q2:VideoJAM相比其他视频生成模型有什么优势?
A:VideoJAM在运动连贯性方面大幅超越传统模型,在人类评估中82%的情况下被认为运动效果更好,甚至在某些指标上超过了Sora、Kling等商业模型。更重要的是,它不需要重新训练整个模型,只需添加两个简单的连接层就能显著改善效果,成本很低但效果明显。
Q3:普通用户什么时候能用上VideoJAM技术?
A:VideoJAM目前还是研究阶段的技术,但由于其改进方式相对简单,现有的视频生成服务可以比较容易地集成这项技术。预计在不久的将来,各大视频生成平台可能会逐步采用类似技术来改善用户体验,让生成的视频动作更加自然合理。