当前位置: 首页 » 资讯 » 科技头条 » 正文

中科大与上海AI实验室联手:AI视频实现多镜头切换防眩晕能力

IP属地 中国·北京 科技行者 时间:2026-05-30 00:18:55


这项由中国科学技术大学与上海人工智能实验室、浙江大学联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.23903,感兴趣的读者可通过该编号查阅完整原文。

你有没有想过,导演在拍电影时,有时候会对同一个场景从不同角度重拍好几次?比如,先从正面拍一个人走路,再换到侧面、俯视、甚至绕着他转一圈——这叫"多机位拍摄"。但在真实拍摄中,这需要多台摄像机同时开机,或者让演员一遍遍重复表演,耗时又耗力。

那么,有没有办法让AI帮忙完成这件事——你只给它一段普通视频,告诉它"我想看从左边45度拍的效果",它就能自动生成那个从来没有存在过的新视角视频?这正是近年来视频生成领域一个非常热门的研究方向,专业上叫做"相机控制的视频重渲染"。

然而,现有的AI模型在这件事上,有一个让人头疼的毛病:它们在实验室里表现不错,一旦遇到真实世界的视频,就开始"晕镜头"——生成出来的新视角要么比例失真,要么镜头轨迹根本不对,像是一个不听话的摄影助手,你让它向左移两步,它却乱走一通。

研究团队为了解决这个问题,提出了一套名为"Geo-Align"的新框架,核心思路是用强化学习(Reinforcement Learning,简单来说就是一种"试错学习"的AI训练方式)来纠正模型的"方向感",让AI生成的新视角视频能真正符合你指定的摄像机运动路径,同时保持画面的美观与自然。

一、问题的根源:AI摄影助手为何总是走错路

要理解Geo-Align解决了什么问题,先得搞清楚现有方法为何会出错。

以往的AI视频重渲染方法大致分两种思路。第一种叫"显式几何变换",类似于先用尺子量好房间的布局,再告诉搬家工人该怎么移动家具。具体来说,模型会先估计视频里每个像素的深度(也就是它距离摄像机有多远),然后把画面"翻折"到新的视角,最后用另一个AI模型填补翻折后出现的空洞。TrajectoryCrafter和CogNVS是这类方法的代表。这种做法的问题在于,翻折过程中难免出现"缝隙"和"拉伸变形",尤其是镜头移动幅度较大时,画面会像一块橡皮泥被扯歪一样,充满了人工痕迹。

第二种思路叫"隐式条件方法",代表是ReCamMaster和ReDirector。这类方法不再手动"翻折"画面,而是直接把目标摄像机的运动参数输入给AI模型,让模型自己学会"如果摄像机这样动,画面应该长什么样"。听起来更聪明,但问题随之而来——模型是用合成数据训练的,也就是用游戏引擎或虚拟软件制作的假视频。而真实世界里的视频和虚拟环境差别很大,就像一个厨师只在模拟厨房练过手,真正上灶却不知道怎么控制火候。

这里还有第二个深层问题,叫做"尺度模糊"。摄像机的运动,其实有两个分量:旋转(左转右转)和平移(向前后左右移动)。对于旋转,AI还比较容易学;但对于平移,必须知道真实的物理尺度——移动了多少厘米,才有意义。偏偏现有的真实世界视频数据,几乎都没有可靠的物理尺度标注。于是AI学出来的模型,移动"一步"到底是1厘米还是1米,完全不确定,导致生成视频的镜头运动经常要么蜷缩不动,要么猛地一飞冲天。

Geo-Align就是专门为解决这两个痛点而设计的——数据稀缺和尺度模糊。

二、灵感从"背死书"到"考场上练真题"

传统的监督学习(Supervised Fine-Tuning,简称SFT)训练方式,相当于让AI"背标准答案"。你把一段视频和对应的目标视角视频都给它看,告诉它"输入这个,输出那个",它就记住这个映射关系。但这种方式有个天然弱点:如果考试题目和练习题稍有不同,它就不知道怎么办。更何况,"正确答案"——也就是同一场景、同一时刻的多机位真实视频——在现实中极其罕见,根本没有那么多"标准教材"可以背。

强化学习换了一种思路,更像是"在真实场景里反复练习,根据结果好坏来调整行为"。你不需要提前准备标准答案,只需要有一种方法能判断AI的输出"好不好"。如果生成的视频符合指定的镜头运动,就给奖励;如果偏差很大,就惩罚。AI通过不断尝试和反馈,逐渐学会正确的行为。

这种思路的关键优势是:不需要"配对"数据,也就是不需要同一场景的多视角同步视频。你只需要有真实世界的普通视频,再配上一条目标摄像机轨迹,训练就可以进行。这大大扩展了可用的训练数据范围。

Geo-Align正是把强化学习引入视频重渲染任务的第一个框架,而它的"奖惩机制",就是整个方法的核心创新。

三、奖惩机制:用"量尺"而非"感觉"来打分

打分系统的设计,是Geo-Align最精妙的部分。研究团队没有简单地让一个AI来"感觉"画面好不好,而是引入了一个叫做MapAnything的"度量3D重建工具"来充当严格的考官。

MapAnything是一种能从视频帧中直接推算出摄像机真实运动轨迹的工具,而且它给出的数值是有真实物理单位的——旋转用角度表示,平移用米表示。这就像给AI配了一把真正的卷尺,而不是让它靠目测估计距离。

具体来说,AI每次生成一段新视角视频后,MapAnything就会分析这段视频,提取出AI实际"走"的摄像机路径,然后和目标路径做比较。比较分两个维度:旋转偏差(摄像机转向是否准确,用角度误差衡量)和平移偏差(摄像机移动距离和方向是否准确,用米为单位的距离误差衡量)。偏差越大,扣分越多;偏差越小,奖励越高。

这里有一个特别聪明的设计细节。研究团队发现,AI模型在生成视频时,开头几帧通常表现得很好,因为它直接参考了输入视频。但越到后面,误差积累越大,镜头轨迹越容易"漂移"。就像一个人走路,最初几步还沿着正确方向,但走久了就偏离了。于是研究团队给每一帧的误差设置了不同的"权重"——越是后期的帧,权重越高。这样,AI被迫把更多精力放在保持长期轨迹的准确性上,而不是只顾好开头几帧。

除了几何精度,研究团队还担心一件事:如果AI只顾追求轨迹准确,万一它学会了生成画面模糊、颜色失真但轨迹精准的视频,那不就是"走火入魔"了吗?为了防止这种情况,他们还引入了两个视觉质量评分工具:VideoAlign(负责评估视频整体动态效果和运动自然度)和HPSv3(负责评估单帧画面的美观程度和细节质量)。这三类奖励信号共同作用,确保AI在学会"走对路"的同时,也保持"拍出好画面"的能力。

四、数据策略:用"现实视频+游戏轨迹"拼出完整训练集

有了奖惩机制,还需要解决训练数据的问题。毕竟强化学习需要反复"出题考试",题目本身也需要精心设计。

研究团队采用了一种巧妙的"混搭"策略。训练时,输入的条件视频来自真实世界——他们使用了一个叫做CityWalk(即Sekai数据集)的城市漫步视频数据集,里面有大量普通人拍摄的街头行走视频,涵盖室内外、动静结合的各种真实场景。这些视频没有经过任何特殊处理,就是日常生活中随手拍的那种。为了给这些视频配上摄像机轨迹信息,研究团队用MapAnything工具自动推算出每段视频对应的摄像机路径——这个过程完全自动化,不需要人工标注。

目标摄像机轨迹则来自另一个完全不同的OmniWorld游戏数据集。这是一个从游戏引擎中提取的数据集,里面有各种各样丰富多彩的摄像机运动模式——推进、拉远、旋转、绕行等等。但游戏里的轨迹有一个致命缺陷:它们没有真实的物理尺度。游戏里的"一步"可能等于现实中的一厘米,也可能等于一公里。如果直接用这些轨迹作为训练目标,AI根本无法学会现实意义上的"适度移动"。

为了解决这个尺度问题,研究团队设计了一套"截断高斯采样"的缩放机制。简单来说,就是先算出每段游戏轨迹里摄像机运动最快的瞬间(最大帧间旋转速度和最大帧间平移速度),然后从一个概率分布中随机抽取一个"目标速度上限"——这个上限被设定在接近正常人行走速度或稳定持机运动的合理范围内,再计算一个缩放比例,把整段游戏轨迹等比例缩放到合理的物理尺度。这就像把一张比例尺不对的地图缩放到正确比例——方向不变,但距离变得有现实意义了。通过这种方式,游戏里夸张的、不现实的摄像机运动,被转换成了真实世界中合理的镜头轨迹,既丰富了训练数据的多样性,又保证了物理合理性。

五、训练机制:如何让AI在"尝试-反馈"中稳步进步

有了数据和奖惩机制,具体的训练过程是怎么运作的?研究团队采用了一种叫做GRPO(Group Relative Policy Optimization,"群体相对策略优化")的强化学习算法,这个算法最近因为被用在大语言模型DeepSeek-R1的训练中而广为人知。

GRPO的工作方式是这样的:对于每一段输入视频和目标轨迹,让AI同时生成一批(比如12个)不同的视频版本,然后分别给这些版本打分,找出这批里表现最好的和最差的,以相对排名来指导模型改进——表现好的路径要强化,表现差的要抑制。这比传统方法更节省计算资源,因为它不需要另外训练一个专门负责"评估"的模型。

由于视频生成本身很慢(生成一段81帧的视频需要相当的计算时间),研究团队还采用了一种叫做"滑动窗口采样"的加速技巧:不是每次都从头到尾处理整段视频,而是把注意力集中在当前训练最需要优化的时间窗口内,大幅加快了收敛速度。

多维度奖励信号的汇总也需要特别处理。直接把旋转误差、平移误差、视觉质量分等不同量纲的数字加在一起,就像把苹果和橙子混在一起比较大小,毫无意义。研究团队的做法是先对每个维度的奖励进行"标准化"——把每个维度的分数转换成"这批样本里相对位置"的表达方式,再加权求和。这样不同维度的信号就可以公平地参与最终的评判。

此外,研究团队还故意去掉了一个通常会加入强化学习训练的"约束",即KL散度惩罚项。这个约束本来是防止模型偏离原始训练状态太远的"保险绳"。去掉它,是为了让模型在面对那些训练时从未见过的、新颖复杂的摄像机轨迹时,有更大的探索空间,更敢于尝试新的生成策略。

整个训练过程在64块NVIDIA A800显卡上运行,总共进行140轮迭代,大约耗时130小时。为了保留预训练模型的视觉生成能力,训练时只更新模型中的"自注意力层"(可以理解为模型内部负责"左顾右盼、综合判断"的部分),其余参数全部冻结不动。

六、实验结果:数字说话,全面超越基线

研究团队在DAVIS数据集(一个常用的视频对象分割基准数据集,包含各种室内外真实视频)上进行了评测,共使用50段视频,每段视频配上10种不同的目标摄像机轨迹,总共生成500个测试案例。

评测指标涵盖了多个维度。相机精度方面,用TransErr(平移误差)和RotErr(旋转误差)来衡量生成视频的轨迹和目标轨迹有多接近。几何一致性方面,用MEt3R(多视角几何一致性分数)和Dyn-MEt3R(动态场景几何一致性分数)评估生成视频和输入视频在三维结构上是否吻合。视觉质量方面,用VBench工具包评估主体一致性、背景稳定性、美学质量、成像质量、时序流畅度和运动平滑度。

与所有对比方法相比,Geo-Align在几乎所有指标上都取得了最好或接近最好的成绩。与其直接的前身模型ReDirector相比:平移误差从0.0149降至0.0129,改善约13%;旋转误差从1.4635降至1.3645,改善约7%;动态场景几何一致性从0.8497提升至0.8573;视觉质量的多项指标也全面提升。

在不同镜头运动速度下的对比测试中,表现同样稳健。当目标轨迹的速度倍率提高到1.5倍和2.0倍(也就是镜头运动更快、更大幅度)时,ReDirector的各项指标均有明显下降,而Geo-Align的下降幅度更小,说明它对复杂、大范围的镜头运动有更强的适应能力。

从直观的视频画面来看,在大幅度摄像机运动时,ReCamMaster和ReDirector经常出现主体消失、背景模糊糊的情况,就像老照片遇到了潮湿,图像发虚;而Geo-Align生成的视频,前景主体和背景细节都保持得更加完整清晰,几何关系也更加正确合理。

七、消融实验:每个设计都是必要的

为了验证各个设计选择的必要性,研究团队还做了"消融实验"——也就是把某个设计去掉,看看效果会变差多少。

当只使用视觉美观奖励(去掉几何奖励)时,旋转误差反而比原始基线模型变得更差(从1.4635升至1.6082),说明单纯追求画面好看,可能反而会让模型忽视轨迹准确性,走偏方向。而加入几何奖励之后,不仅相机精度大幅提升,视觉质量也跟着改善了——两个目标相互促进,而非相互矛盾。这说明几何约束不是"牺牲美观换来的精准",而是帮助模型建立了更正确的三维理解,从而连带提升了画面的自然度。

八、局限与未来:好厨师也有拿不准的菜

任何技术都有边界,Geo-Align也不例外。研究团队坦诚地指出,模型在以下几种情况下仍然容易出错:摄像机旋转幅度极大(比如360度转圈)、平移距离极远(比如镜头快速飞跑)、或者拍摄对象是紧贴摄像机的超大前景物体(比如特写镜头贴着脸)。此外,当视频里有大量运动物体(比如人群涌动、车流穿梭)时,AI生成的视频会出现闪烁或物体忽隐忽现的问题,就像一张照片里的人在鬼闪。

另一个现实问题是训练耗时。强化学习需要在每个训练批次里让AI生成多段完整视频,而视频生成本身就很慢,两者叠加在一起,训练成本相当高昂。如何在不降低效果的前提下加速这个过程,是研究团队明确指出的下一步方向。

说到底,Geo-Align做的事情,是给AI装上了一双有物理感知的眼睛,让它不再依赖死记硬背的"合成数据答案",而是通过反复在真实场景里试错、接受精确的几何反馈,真正学会如何控制镜头。这对于影视创作、游戏制作、虚拟现实内容生成等领域都有直接的应用价值——未来你只需要拍一段普通视频,就可以用AI生成任意你想要的摄像机角度版本,而不再需要重新架设摄像机重拍。

归根结底,这项研究用一句话概括就是:用"让AI自己去练、用真实物理标准打分"的方式,替代了"给AI死记大量配对样本"的老路,成功让AI的"换镜头"能力在真实世界中变得可靠了许多。感兴趣的读者可以通过arXiv编号2605.23903查阅完整论文,或访问项目主页lizizun.github.io/geo-align-page/了解更多视频演示效果。

Q&A

Q1:Geo-Align和普通视频重渲染方法有什么本质区别?

A:普通方法依赖"标准答案"训练,需要同一场景多角度同步视频,而这类数据极其稀缺。Geo-Align用强化学习替代了这种依赖——它只需要普通视频和目标摄像机轨迹,用MapAnything工具衡量生成结果和目标轨迹的几何误差来打分,让AI在没有配对数据的情况下也能学会准确控制镜头。

Q2:Geo-Align训练需要的数据从哪来,普通人能复现吗?

A:训练数据由两部分混合而成:真实世界的CityWalk城市漫步视频(作为输入条件),以及OmniWorld游戏引擎数据集中提取的摄像机轨迹(作为目标轨迹,经过物理尺度缩放处理)。整个训练在64块A800显卡上跑了约130小时,对普通研究者来说硬件门槛较高,但数据获取方式是公开的。

Q3:Geo-Align生成视频时会出现哪些失败情况?

A:模型在极速旋转、大范围快速平移、或大型物体近距离特写时容易失效,生成画面可能出现比例错误或内容崩坏。当视频中有大量运动物体(如人群、车流)时,生成结果也容易出现闪烁或物体忽隐忽现的问题。这些边界情况是当前版本的主要局限。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新