当前位置: 首页 » 资讯 » 科技头条 » 正文

Seedance2.0炸场后,又一中国黑马登顶AA榜单!AI味没了

IP属地 中国·北京 新智元 时间:2026-02-27 16:37:09


新智元报道

编辑:犀牛 Aeneas

当Seedance 2.0刷屏全网时,一匹中国黑马已悄然冲上全球AI视频榜第二。昆仑天工SkyReels-V4强势杀入顶级牌桌,多模态输入、音画同步直出影院级大片,实力惊艳超群!

最近,全球AI圈风头最盛的模型当属Seedance 2.0了。

模型一出,瞬间引爆全网。

就当所有人的目光都聚焦在Seedance 2.0的狂欢与争议上时,一匹黑马已悄然杀入了全球AI榜单的顶级牌桌。

就在刚刚,Artificial Analysis更新了文本到视频(含音频)全球榜单。

在这份由OpenAI、Google、Anthropic等头部AI公司共同认可的权威排行榜上,一个来自中国的名字闯入了最前列:

昆仑天工SkyReels-V4,全球现役模型排名第2,历史所有模型排名第4!



Artificial Analysis 榜单: https://artificialanalysis.ai/video/leaderboard/text-to-video?audio-output=true

在这个汇聚了Veo 3.1、Sora 2、Kling 3.0、Wan 2.6等全球顶尖选手的竞技场上,SkyReels-V4以实打实的技术硬实力,一举超越了绝大多数明星产品。

这不是一次偶然的惊艳亮相,而是昆仑天工在 AI 视频大模型领域厚积薄发的一次集中爆发。

先看效果

SkyReels-V4 到底能做什么?

空谈数据,不如直接看能力。

SkyReels-V4的野心远不止于「生成一段好看的视频」。

它想要做的,是成为全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型。

举几个直观的例子。

比如现在最火的短剧。只需要两个角色图片,以及角色的台词即可。


输入SkyReels-V4后,它直接就生成了一段1080p、32FPS、15秒的影院级视频。

这个效果,已经基本上没啥AI味了。

歪果仁也没问题。


不得不说,真的很难看出是AI生成的。

同时给多个参考图像和音频输入,三个角色分别是一只黑猫、一只澳大利亚牧牛犬和一只棕熊。


仔细看,画面和声音完全对得上,节奏卡得基准,嘴型都严丝合缝,挑不出毛病。

SkyReels-V4最让人眼前一亮的能力,就是让你拥有多模态参考的创作自由。

假设你手头有两张角色设计图、一段舞蹈动作的参考视频,你可以把这三者同时丢给SkyReels-V4,它会忠实地用两张图像的角色外观,执行视频中的舞蹈动作,配合音频的节奏律动,生成一段全新的、高质量的视频作品。

这种跨模态的精准融合控制能力,在当前的视频大模型中几乎是独一份。

比如这段经典电影中男女演员随音乐起舞的视频,质感极其惊艳。


舞蹈演员换成边牧和英短,效果也是同样自然。

可以说,SkyReels-V4真正做到了角色一致性、高质量动作生成、精准音画同步、电影级的视觉呈现,几乎可以直接用于商业级展示。

首帧参考功能,可以让它的多模态控制更为灵活。

输入以下首帧,我们就分别得到了喝咖啡的兵马俑、拉小提琴的陶俑和打排球的labubu。





运动参考功能,可以把跳舞的舞者一键换成动漫角色,动作绝对一致。




另外,SkyReels-V4的一站式全流程修复编辑功能,也是好用到爆。

如果视频中有个碍眼的水印,可 以直接去掉。

一句prompt,就能去掉短剧中的特定人物,比如下面镜头中穿旗袍和穿红裙的女演员。

角色的衣服不满意?直接一键修改。比如这位举杠铃的老人,白背心一键被变成了蓝色T恤,画面自然得看不出改动痕迹。



甚至,你可以把整个视频的风格从写实一键切换到乐高积木风。

古装剧这种写实、厚重的影像风格,都能瞬间变成充满童趣和创意的视觉表达,而且动作、镜头调度和剧情节奏依然保留,风格迁移完成度惊人。

也就是说,从此创作者再也不会被单一美术风格绑定,同一段内容,可以根据商业需求快速切换视觉语言,在史诗、卡通动画、积木玩具风之间来回切换。

这就打开了IP二次创作和品牌联名的空间,让内容的商业想象力空间暴涨。



SkyReels-V4还能帮我们把静态的镜头,变成电影级的推拉摇移。

原本只是一个男人坐在原地抛着橘子,画面像监控一样静止、没有起伏。

但加入镜头语言后,原本静态的记录画面,一下子就有了呼吸感,被转化为极有叙事张力和节奏设计的电影级运镜。



更方便的是,过去你需要在Premiere、AE、各种AI工具之间反复切换才能完成的工作。

现在,SkyReels-V4一个模型就能全部搞定了。

三大创新打破行业天花板

SkyReels-V4 的强悍表现背后,是三项关键技术突破。


技术报告入口: https://arxiv.org/pdf/2602.21818

第一,双流 MMDiT 架构——让音视频真正「合为一体」。

当前主流的视频生成模型在处理音频时,普遍采用「先生成视频,再后贴音频」的浅层融合方案,这种做法导致的结果就是音画不同步、唇形对不上、音效跟画面割裂。

SkyReels-V4 彻底换了一种思路。

它采用对称双流架构设计:视频和音频各有一条独立的处理分支,但两条分支共享同一个文本编码器,并通过双向跨注意力机制在整个网络的所有层级上实现深度交互。


简单来说,视频在生成的每一步都在「听」音频在做什么,音频在生成的每一步都在「看」视频在做什么——它们不是各干各的、最后拼在一起,而是从一开始就在互相引导、协同生长。

为了解决音频和视频在时间尺度上的天然不匹配问题(视频是一帧一帧的,音频是连续波形的),团队还创新性地使用了RoPE频率缩放技术,将音频的位置编码频率精确地调整为与视频帧率相匹配的比例,实现了毫秒级的时间对齐精度。

这就是为什么SkyReels-V4的唇形同步能做到如此的准确率——因为音视频从生成机制的底层就是绑定的。

第二,统一拼接框架——一个模型,包揽所有视频操作。

传统的视频AI工具链是碎片化的:文生视频用一个模型,图生视频用另一个,视频修复用第三个,风格迁移用第四个……每切换一个工具,都意味着上下文信息的丢失和创作流程的断裂。

SkyReels-V4提出了一个精巧的「通道拼接+时序拼接」双维统一范式。

它的核心思想是:无论你想做什么任务——文字生成视频、图片生成视频、视频延展、区域修复、风格迁移、物体移除——本质上都可以被转化为「给定某些已知条件,生成未知区域」的修复问题。

通过一组灵活的输入组件,模型只需要调整掩码配置就能在不同任务间无缝切换。

比如文生视频时掩码全为0(完全从零生成),图生视频时只有首帧掩码为1(锁定参考图,续写后续画面),视频编辑时保留区域掩码为1、编辑区域掩码为0(只改你想改的部分)。

这种设计的优雅之处在于:用户不需要关心底层在调用哪个功能模块,只需要告诉模型「我想要什么」,模型自己就能理解并执行。

它让专业级视频创作从「工具链操作」变成了「意图表达」。

第三,高效生成策略——在质量和速度之间找到最优解。

1080p分辨率、32FPS帧率、15秒时长——这个规格参数放在一年前,光是计算量就足以劝退大多数研究团队。

SkyReels-V4的工程团队设计了一套巧妙的「低分辨率全序列 + 高分辨率关键帧」联合生成策略:模型先快速生成低分辨率的完整视频和高分辨率的关键帧,再通过专门的超分辨率和帧插值模块重构最终的高质量视频。

配合自研的视频稀疏注意力(VSA)机制,注意力计算成本降低了约3倍,让影院级规格的视频生成真正具备了实用价值。


此外,模型还采用了多阶段渐进式训练策略——从256px的文本到图像预训练起步,逐步扩展到480p、720p、1080p的多分辨率训练,最后通过大规模多模态数据和精选高质量数据的微调进行精打细磨。

这种「由粗到精」的训练路径,确保了模型在每个分辨率等级上都有扎实的基础能力。

视频+音乐

未来市场爆发的金矿

SkyReels-V4 并不是一个孤立的产品——它是昆仑天工「全模态 AI 创作生态」拼图中的关键一块。

昆仑天工旗下还有一个同样在全球市场打出声量的产品:AI 音乐创作平台 Mureka。

Mureka O1 是全球首个引入 CoT(思维链)技术的音乐推理大模型,在音乐创作质量上全面超越了 Suno 等竞品,登顶 SOTA。

最新的 Mureka V8 在音色、演奏技法、情感表达上持续突破,用户遍布全球 100 多个国家和地区。

当我们把 SkyReels-V4 的视频生成能力和 Mureka 的音乐创作能力放在一起看,一个巨大的想象空间打开了:一家公司同时拥有全球顶尖的视频大模型和音乐大模型,从画面到声音、从配乐到人声、从特效到情感表达,全链路打通。

这意味着一个品牌方可以用一句话描述自己想要的广告创意,从画面、配乐、旁白到音效,一站式生成完整的视频广告。

一个独立音乐人可以把自己创作的歌曲直接变成高质量MV,不需要再花费数万元请拍摄团队。

一个教育机构可以把课程内容自动转化为配有讲解语音、背景音乐和动态画面的教学视频。

在当前的 AI 市场上,同时在视频和音乐两个赛道都达到全球领先水平的玩家,屈指可数。

可以说,视频+音乐的未来市场,是一座亟待爆发的金矿。

国外大厂已经纷纷下手,比如谷歌推出的Veo 3与Flow工具链,能同时生成视觉内容与音乐轨道,甚至整段视频和声音都能按需生成,直接就能一站式创作短片。


Adobe在Firefly中新增了AI Soundtrack与AI Voice-over生成器,可以根据视频风格自动生成背景音乐,由此,广告视频可以自动配乐,影视预告片可以快速做出Demo。


美国AI语音/音乐公司ElevenLabs发布了与著名音乐人合作的AI生成项目,同时计划结合视频和音乐创作。

本质上,这条路线也是视频+音乐创意协同生成的未来方向。


ElevenLabs的最新项目:Liza Minnelli和Art Garfunkel

现在,这些大厂尝试的路径,昆仑万维已经完美复现!

SkyReels-V4的出现,恰逢其时

昆仑天工的技术报告已经明确展示,SkyReels-V4和Mureka之间的技术协同已经在实际产品中落地——此前发布的全网首支AI音乐人MV,音乐由Mureka生成,视频由SkyReels技术支撑,就是这种全模态能力的一次预演。

巧合的是,AI视频生成市场正处于一个微妙的转折点。

Seedance 2.0的横空出世毫无疑问搅动了整个行业,冯骥称其「Kill the game」,影视飓风的Tim连呼六次「恐怖」,海外社交平台上一码难求。

但硬币的另一面是:Seedance 2.0在爆红的同时迅速遭遇了风控收紧,大量被Seedance 2.0惊艳效果吸引、但因风控收紧的创作者,正在积极寻找替代方案。

SkyReels-V4恰好在这个时间窗口,交出了一份足够硬核的成绩单。

更重要的是,SkyReels-V4 的「全模态参考」能力——支持文本、图像、视频、掩码、音频等多种输入组合——在功能覆盖度上甚至比Seedance 2.0更为全面。

对于那些需要稳定、专业、全流程视频创作能力的用户来说,SkyReels-V4 提供了一个值得认真考虑的选择。

当然,AI视频生成是一个百花齐放的赛道,每个模型都有自己的优势和适用场景。

但SkyReels-V4用这次榜单成绩证明了一件事:在这场全球竞技中,中国AI视频技术不只有一个选项。

持续迭代的长期主义

回顾昆仑天工在视频大模型领域的发展轨迹,你会发现SkyReels-V4的崛起绝非偶然。

2025年2月,开源SkyReels-V1——中国首个面向AI短剧创作的视频生成模型,基于千万级级影视数据训练,支持 33 种微表情和 400 多种动作组合。

2025年4月,发布SkyReels-V2——全球首个使用扩散强迫(Diffusion Forcing)框架的无限时长电影生成模型,在VBench1.0评测中拿下开源最高分。

2026年1月,开源SkyReels-V3——新一代多模态视频生成系统,支持1-4 张参考图像输入,实现多主体视频生成、音频驱动和视频到视频生成。

2026年2月,SkyReels-V4发布——全球首个同时支持多模态输入、联合音视频生成、统一全场景任务的视频基础模型,Artificial Analysis全球榜 TOP2。

从 V1 到 V4,每一代的迭代都不是简单的参数堆叠,而是架构层面的创新突破。

V1 解决了影视级质感的问题,V2 攻克了无限时长生成的难题,V3 引入了多模态参考能力,V4 则实现了音视频联合生成和全场景统一框架的终极整合。

这种持续创新迭代的节奏,配合 Mureka 在 AI 音乐领域的领先地位、Skywork 系列在大语言模型和多模态推理上的突破、以及 DramaWave 短剧平台的商业化落地,昆仑天工正在构建一个覆盖「算力—模型—应用」的完整 AI 生态闭环。

AI 视频创作的

「大一统」时刻正在到来

站在2026年初回望,AI视频生成领域在过去一年经历了翻天覆地的变化。

从Sora掀起的第一波浪潮,到Veo、Kling、Seedance等模型的百家争鸣,再到SkyReels-V4以「全模态参考+音视频联合生成+统一任务框架」的三位一体能力冲上全球榜单前列——我们正在见证一个新时代的开启。

在这个时代里,视频创作不再是专业团队的专属特权,而是每一个有创意的人都能触及的表达方式。

而SkyReels-V4所代表的技术方向——用一个模型、一次操作,完成从文字构思到音视频成品的全流程创作——正是通往那个未来的最清晰路径。

昆仑天工在技术报告中透露了未来三大方向:扩展更长时长(30 秒+)的视频生成能力、增强实时交互编辑功能、开放模型API接口与更多创作工具生态集成。

这些方向中的每一个,都将进一步拉近AI视频创作与专业影视制作之间的距离。

AI 视频的竞赛远未结束,但SkyReels-V4已经用全球TOP2的成绩证明:在这条赛道上,来自中国昆仑天工的声音,值得全世界倾听。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。