当前位置: 首页 » 资讯 » 科技头条 » 正文

浙江大学联手京东研究院:让AI视频训练快6倍的"闪电秘诀"

IP属地 中国·北京 科技行者 时间:2026-05-22 22:16:39


当你看到那些栩栩如生的AI生成视频时,可能不会想到,制作这样一段视频背后的"调教"过程有多么烧钱。训练一个140亿参数的视频生成模型,需要消耗数百个GPU日——换算成普通人能理解的概念,相当于一台高端电脑不眠不休工作好几年。这种成本不仅让普通研究者望而却步,连大公司都得精打细算。

正是这个棘手的难题,催生了一项有趣的研究。这项由浙江大学、京东未来研究院和清华大学的研究人员共同完成的研究,发表于第43届国际机器学习大会(ICML),论文编号为arXiv:2605.15980v1,发表时间是2026年1月。研究团队提出了一个名为"Flash-GRPO"的新方法,号称能把视频AI的训练速度提升6倍,同时还能让生成的视频质量更上一层楼。有兴趣深入了解的读者可以通过arXiv编号2605.15980查询完整论文。

接下来就让我们用最通俗的语言,揭开这个"闪电训练法"的秘密。

一、视频AI训练为什么这么"烧钱"

要理解这项研究的价值,得先明白现在的视频AI是怎么"学习"的。

把训练AI生成视频想象成教一个学徒画连环画。这个学徒一开始画出来的东西完全是一团乱麻——就像电视没信号时的雪花点。然后他要一步一步地把这团乱麻"擦"得越来越清晰,最终变成一段流畅的视频。这个"擦"的过程通常要分几十步完成,每一步都让画面清晰一点点。

问题就出在这里。传统的训练方法叫做"GRPO"(群体相对策略优化,可以理解为"团队评分制学习法"),它要求学徒在每一步擦拭后都要被老师打分、被纠正。这就像你学做菜,老师不仅要看你最后端出的菜,还要在切菜、炒菜、调味的每个环节都站在旁边指点。这种"全程陪练"虽然细致,但极其耗时耗力。

对视频AI来说,这种全程陪练的代价就是天文数字的计算资源。140亿参数的模型每做一次实验,就要烧掉数百个GPU日,相当于一辆豪车的价格。这不仅让做研究的人头疼,也让这种技术难以普及。

有人就想了:能不能不要每一步都陪练,只挑某几步指导一下呢?这就是之前一些研究尝试的"滑动窗口"方法——只在连续几步上训练。但问题来了:这种偷懒的方式让学徒变得很不稳定,画出来的东西时好时坏,甚至越练越糟。研究界一直被困在"省钱"和"质量"的两难境地中。

二、罪魁祸首:两个被忽视的"坑"

研究团队像侦探一样,仔细排查了为什么"偷懒训练"会失败。他们发现了两个隐藏的"陷阱"。

第一个陷阱叫做"时间点混淆问题"。回到画连环画的比喻,整个擦拭过程从模糊到清晰有几十个阶段。早期阶段画面很模糊,画得好不好很难分辨;后期阶段画面已经比较清晰,细节的优劣一目了然。如果老师把不同阶段的作品放在一起评分,比如说一个学徒在"模糊阶段"画的作品和另一个学徒在"清晰阶段"画的作品比,那分数就完全失去了意义——前者画得差可能是因为这个阶段本来就难,后者画得好可能只是因为这个阶段更容易。

传统的偷懒训练就犯了这个错误。它让不同的学徒在不同阶段被评分,然后把分数混在一起算"平均水平",结果就是评分体系彻底乱套,学徒根本不知道自己该往哪个方向努力。

第二个陷阱更隐蔽,叫做"梯度尺度失衡问题"。这个有点抽象,但我们可以这样理解:假设老师给学徒的纠正力度是不一样的。在某些阶段,老师轻轻一推;在另一些阶段,老师猛地一拽。这种力度的差异不是因为学徒在某个阶段错得更离谱,而仅仅是因为训练方法本身的"机械结构"导致的——就像一台秤,称鸡蛋时灵敏,称大米时反而钝了,这跟鸡蛋和大米本身的重要性没关系。

研究团队从数学上证明了,传统方法中存在一个叫做"λ(t)"的隐藏系数,它会在不同时间点上变化好几个数量级。换句话说,有些时间点的"教导力度"比其他时间点强几十倍甚至几百倍。结果就是:早期那些不重要的时间点反而主导了整个训练过程,而真正关键的时间点却被淹没了。这就像一个班级里几个嗓门大的学生总是占据老师的注意力,导致那些真正需要帮助的同学反而被忽视。

三、第一把钥匙:让评分变公平的"同时段分组法"

针对第一个陷阱,研究团队提出了"同时段分组"(iso-temporal grouping)的解决方案。

回到画画的比喻,新方法是这样的:对于同一个题目(比如"画一只猫"),所有学徒必须在同一个阶段被评分。比如这次大家都在"模糊阶段"画猫,下次大家都在"清晰阶段"画猫。这样一来,谁画得好谁画得差,就变得一目了然——因为大家面临的难度完全一样,唯一的区别只是各自的初始条件(比如起笔的位置不同)。

具体到技术细节上,每次训练时,每个题目(也就是每个文字提示)会被随机分配一个时间点,然后这个题目下的所有"练习版本"都在这个相同的时间点上接受评分。不同的题目可以在不同的时间点,这样整个训练批次仍然涵盖了所有阶段,保证了多样性。

这就好比一场厨艺大赛,不再是把"切菜阶段的张三"和"炒菜阶段的李四"放在一起比较,而是让同一道菜的所有参赛者必须在同一个环节同时被评判。这样评分才有意义,学徒才能真正知道自己在哪里需要改进。

更巧妙的是,在生成视频的整个过程中,只有那个被选中的"评分时间点"使用带有探索性的随机方式(专业上叫SDE,可以理解为"允许尝试新东西"的模式),其他时间点都使用稳定的确定性方式(叫ODE,可以理解为"按部就班"的模式)。这就保证了最终生成的视频质量高,从而提供更准确的评分信号。

四、第二把钥匙:让纠正力度均衡的"梯度校正法"

针对第二个陷阱,研究团队推出了"时间梯度校正"(temporal gradient rectification)。

记得前面提到的那个让秤忽灵敏忽钝的λ(t)系数吗?研究团队的解决办法简单粗暴又有效:直接把这个系数"除掉"。就像给秤装上一个自动校准装置,无论称什么东西,灵敏度都保持一致。

从数学公式上看,他们在损失函数中除以λ(t),使得每个时间点对参数更新的贡献都被拉平到同一水平。这样一来,无论训练发生在视频生成的哪个阶段,每个阶段都能均等地参与"教导"过程,不会再出现某些阶段"霸占话语权"的情况。

这个看似简单的修改实际上是基于严格的数学推导。研究团队从随机微分方程的离散化出发,一步步推导出策略梯度的完整表达式,发现这个λ(t)正是来自数值离散化过程中的伪因素,并不反映真实的训练需求。把它消除掉是完全合理的,并不会损失任何有用信息。

在实验中,这个看似微小的改动产生了惊人的效果。训练过程中梯度的"波动"(可以理解为训练过程的颠簸程度)从剧烈震荡变成了平稳如水。原本会出现的"训练崩溃"现象彻底消失,整个训练过程像一条平缓上升的曲线。

五、实战检验:从1.3B到14B模型的全面胜利

光说不练假把式。研究团队在Wan2.1这个开源视频模型上做了大量实验,覆盖了13亿参数的小型号和140亿参数的大型号。

在公认的VBench视频质量评测中(这是视频AI界的"高考"),用350个GPU小时训练的Wan2.1-1.3B版本,Flash-GRPO在美学质量上拿到了66.43分,在主体一致性上拿到了98.70分,超过了所有对比方法。相比之下,传统的Flow-GRPO虽然在某些细分项上不输,但耗费的训练资源相同的情况下,整体表现并不如Flash-GRPO均衡。而那个偷懒版本Flow-GRPO-Fast1则在成像质量上明显下滑——只拿到65.96分,比全程训练的Flow-GRPO(68.60分)低了不少,证明了简单偷懒会带来明显的质量损失。

更有说服力的是训练曲线的对比。当研究团队关闭KL正则化(一种额外的稳定剂)时,传统的偷懒方法Flow-GRPO-Fast1的训练奖励从一开始的接近3分一路跌到2分以下,而且伴随着剧烈的震荡;而Flash-GRPO则平稳地从3分爬升到了将近5分。这就像两个登山者,一个步履蹒跚还在往下滑,另一个稳步向上攀登。

在评估表现上,Flash-GRPO达到了大约5.4的HPSv3奖励分数,而Flow-GRPO-Fast1只能勉强达到4.6左右,差距非常明显。即使是与完整训练的Flow-GRPO相比,Flash-GRPO也在更短的训练时间内达到了更高的质量上限——大约5.4分对比5.1分。

研究团队还特别测试了视频的"动作质量",毕竟视频和图片最大的区别就是动起来要自然。结果显示,Flash-GRPO让模型的动作质量分数从-0.55提升到-0.28,而对照方法只能达到-0.34左右。这意味着Flash-GRPO生成的视频在动作流畅度、物理合理性方面有明显提升。

更令人欣慰的是,这套方法在140亿参数的大模型上同样有效。当模型规模扩大,传统方法的训练成本急剧上升,但Flash-GRPO依然保持着稳定的单调增长,证明这种方法不是只能在小模型上玩票,而是真正具有工业级实用价值。

六、看得见的差异:视频效果的直观对比

数字说服力终究有限,让我们看看实际生成的视频有什么不同。

在一段蒸汽火车驶过雪山的场景中,原版Wan2.1生成的火车像是被"冻"在画面里,运动很僵硬;而Flash-GRPO版本的火车呼啸着穿过山谷,蒸汽袅袅升起,画面充满了动感。在钢铁侠飞行的场景中,原版的钢铁侠看起来只是个小人偶悬浮在天空中,细节模糊;Flash-GRPO版本的钢铁侠盔甲质感清晰,飞行姿态自然,云朵的层次也更丰富。

在那个有趣的"小猫吃饭"场景中,原版生成的小猫和食盆显得有些不协调,画面元素稍显凌乱;Flash-GRPO版本则准确地呈现了小猫埋头进食的画面,食盆里食物的细节、小猫毛发的质感都更加逼真。

在动画风格的测试中,比如那个"两只熊猫坐在竹林里读论文"的奇幻场景,Flash-GRPO不仅准确呈现了两只熊猫并排而坐的构图,还保留了它们各自的表情特征——一只若有所思,一只好奇张望。而在"卡通牛和大象站在草地"的场景里,Flash-GRPO甚至在画面中添加了原版遗漏的细节元素(如蝴蝶等),展现了对复杂提示的更好理解。

这些视觉证据表明,Flash-GRPO不仅在数字指标上领先,在人眼可见的实际效果上也确实更胜一筹。

七、消融实验:每个零件都不可或缺

为了验证两把钥匙各自的贡献,研究团队做了"拆解实验",就像汽车工程师拆掉每个零件分别测试一样。

从最朴素的单步训练开始作为基准,HPSv3奖励只有4.64分,比未训练的原版(4.67分)还要差一点——这充分说明了简单偷懒的破坏性。加上"同时段分组"后,分数立刻跃升到5.31,证明了消除时间混淆带来的巨大收益。再加上"梯度校正"后,分数进一步提升到5.42,并且训练过程从不稳定变得平稳。

这种递进式的实验设计清晰地展示了两个改进的独立价值和叠加效应。任何一个都不可或缺,组合在一起才能发挥最大威力。

八、这项研究对普通人意味着什么

聊到这里,可能有人会问:这跟我有什么关系?

实际上,关系比想象的要密切。视频生成AI正在快速进入我们的日常生活——从短视频创作到广告制作,从游戏开发到电影特效,再到教育内容生成。每一次训练成本的降低,都意味着这些技术更可能被普通创作者和小公司用上,而不是被少数科技巨头垄断。

Flash-GRPO把训练成本降低了6倍,这意味着原本需要花费上百万的训练实验,现在可能只需要十几万就能完成。这种成本的下降可能会催生大量新的创意应用,比如个性化的视频生成工具、更便宜的影视后期方案、更智能的视频教学助手等等。

说到底,归根结底,这项研究的核心贡献其实可以用一句话概括:他们发现了视频AI训练中两个被忽视的"系统性偏差",然后用优雅的数学方法把这些偏差校正掉,让训练既快又好。这种"少即是多"的智慧——只在一个时间点训练却能达到全程训练的效果——本身就是一种巧妙的工程艺术。

有人可能会问,未来这种方法还能继续优化吗?训练速度还能再快吗?这些都是值得期待的方向。也许在不久的将来,制作一段电影级别的AI视频,会变得像今天发一条朋友圈一样简单。如果你对这个话题感兴趣,建议查阅原论文(arXiv:2605.15980)获取更多技术细节,相信会有更多有趣的发现等着你。

Q&A

Q1:Flash-GRPO是什么?它解决了什么问题?

A:Flash-GRPO是浙江大学和京东未来研究院等机构在2026年提出的一种视频AI训练加速方法。它解决的核心问题是:训练高质量的视频生成AI模型成本极其高昂,一个140亿参数的模型做一次实验就要消耗数百个GPU日。Flash-GRPO通过"单步训练"的方式,把训练速度提升了6倍,同时还能保持甚至超越传统全程训练的质量。

Q2:Flash-GRPO的两个核心技术是什么?

A:Flash-GRPO有两把关键钥匙。第一把叫"同时段分组",让同一个题目下的所有训练样本都在视频生成的相同阶段被评分,避免不同阶段难度差异造成的评分混乱。第二把叫"时间梯度校正",通过数学手段消除了训练过程中一个隐藏的"力度失衡系数",让每个生成阶段对模型学习的贡献都保持均衡,从而避免训练崩溃。

Q3:Flash-GRPO的实际效果如何?

A:在公认的VBench视频质量评测中,Flash-GRPO在Wan2.1-1.3B模型上拿到了66.43分的美学质量和98.70分的主体一致性,超过了所有对比方法。HPSv3奖励分数达到约5.4,而传统偷懒方法只有4.6左右。在140亿参数的大模型上,Flash-GRPO同样保持稳定增长,证明了这套方法在工业级规模下的实用价值。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。