Seedance2.0炸场后，又一中国黑马登顶AA榜单！AI味没了

IP属地中国·北京 新智元 时间：2026-02-27 16:37:09

新智元报道
编辑：犀牛 Aeneas
当Seedance 2.0刷屏全网时，一匹中国黑马已悄然冲上全球AI视频榜第二。昆仑天工SkyReels-V4强势杀入顶级牌桌，多模态输入、音画同步直出影院级大片，实力惊艳超群！
最近，全球AI圈风头最盛的模型当属Seedance 2.0了。
模型一出，瞬间引爆全网。
就当所有人的目光都聚焦在Seedance 2.0的狂欢与争议上时，一匹黑马已悄然杀入了全球AI榜单的顶级牌桌。
就在刚刚，Artificial Analysis更新了文本到视频（含音频）全球榜单。
在这份由OpenAI、Google、Anthropic等头部AI公司共同认可的权威排行榜上，一个来自中国的名字闯入了最前列：
昆仑天工SkyReels-V4，全球现役模型排名第2，历史所有模型排名第4！

Artificial Analysis 榜单： https://artificialanalysis.ai/video/leaderboard/text-to-video?audio-output=true
在这个汇聚了Veo 3.1、Sora 2、Kling 3.0、Wan 2.6等全球顶尖选手的竞技场上，SkyReels-V4以实打实的技术硬实力，一举超越了绝大多数明星产品。
这不是一次偶然的惊艳亮相，而是昆仑天工在 AI 视频大模型领域厚积薄发的一次集中爆发。
先看效果
SkyReels-V4 到底能做什么？
空谈数据，不如直接看能力。
SkyReels-V4的野心远不止于「生成一段好看的视频」。
它想要做的，是成为全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型。
举几个直观的例子。
比如现在最火的短剧。只需要两个角色图片，以及角色的台词即可。

输入SkyReels-V4后，它直接就生成了一段1080p、32FPS、15秒的影院级视频。
这个效果，已经基本上没啥AI味了。
歪果仁也没问题。

不得不说，真的很难看出是AI生成的。
同时给多个参考图像和音频输入，三个角色分别是一只黑猫、一只澳大利亚牧牛犬和一只棕熊。

仔细看，画面和声音完全对得上，节奏卡得基准，嘴型都严丝合缝，挑不出毛病。
SkyReels-V4最让人眼前一亮的能力，就是让你拥有多模态参考的创作自由。
假设你手头有两张角色设计图、一段舞蹈动作的参考视频，你可以把这三者同时丢给SkyReels-V4，它会忠实地用两张图像的角色外观，执行视频中的舞蹈动作，配合音频的节奏律动，生成一段全新的、高质量的视频作品。
这种跨模态的精准融合控制能力，在当前的视频大模型中几乎是独一份。
比如这段经典电影中男女演员随音乐起舞的视频，质感极其惊艳。

舞蹈演员换成边牧和英短，效果也是同样自然。
可以说，SkyReels-V4真正做到了角色一致性、高质量动作生成、精准音画同步、电影级的视觉呈现，几乎可以直接用于商业级展示。
首帧参考功能，可以让它的多模态控制更为灵活。
输入以下首帧，我们就分别得到了喝咖啡的兵马俑、拉小提琴的陶俑和打排球的labubu。

运动参考功能，可以把跳舞的舞者一键换成动漫角色，动作绝对一致。

另外，SkyReels-V4的一站式全流程修复编辑功能，也是好用到爆。
如果视频中有个碍眼的水印，可以直接去掉。
一句prompt，就能去掉短剧中的特定人物，比如下面镜头中穿旗袍和穿红裙的女演员。
角色的衣服不满意？直接一键修改。比如这位举杠铃的老人，白背心一键被变成了蓝色T恤，画面自然得看不出改动痕迹。

甚至，你可以把整个视频的风格从写实一键切换到乐高积木风。
古装剧这种写实、厚重的影像风格，都能瞬间变成充满童趣和创意的视觉表达，而且动作、镜头调度和剧情节奏依然保留，风格迁移完成度惊人。
也就是说，从此创作者再也不会被单一美术风格绑定，同一段内容，可以根据商业需求快速切换视觉语言，在史诗、卡通动画、积木玩具风之间来回切换。
这就打开了IP二次创作和品牌联名的空间，让内容的商业想象力空间暴涨。

SkyReels-V4还能帮我们把静态的镜头，变成电影级的推拉摇移。
原本只是一个男人坐在原地抛着橘子，画面像监控一样静止、没有起伏。
但加入镜头语言后，原本静态的记录画面，一下子就有了呼吸感，被转化为极有叙事张力和节奏设计的电影级运镜。

更方便的是，过去你需要在Premiere、AE、各种AI工具之间反复切换才能完成的工作。
现在，SkyReels-V4一个模型就能全部搞定了。
三大创新打破行业天花板
SkyReels-V4 的强悍表现背后，是三项关键技术突破。

技术报告入口： https://arxiv.org/pdf/2602.21818
第一，双流 MMDiT 架构——让音视频真正「合为一体」。
当前主流的视频生成模型在处理音频时，普遍采用「先生成视频，再后贴音频」的浅层融合方案，这种做法导致的结果就是音画不同步、唇形对不上、音效跟画面割裂。
SkyReels-V4 彻底换了一种思路。
它采用对称双流架构设计：视频和音频各有一条独立的处理分支，但两条分支共享同一个文本编码器，并通过双向跨注意力机制在整个网络的所有层级上实现深度交互。

简单来说，视频在生成的每一步都在「听」音频在做什么，音频在生成的每一步都在「看」视频在做什么——它们不是各干各的、最后拼在一起，而是从一开始就在互相引导、协同生长。
为了解决音频和视频在时间尺度上的天然不匹配问题（视频是一帧一帧的，音频是连续波形的），团队还创新性地使用了RoPE频率缩放技术，将音频的位置编码频率精确地调整为与视频帧率相匹配的比例，实现了毫秒级的时间对齐精度。
这就是为什么SkyReels-V4的唇形同步能做到如此的准确率——因为音视频从生成机制的底层就是绑定的。
第二，统一拼接框架——一个模型，包揽所有视频操作。
传统的视频AI工具链是碎片化的：文生视频用一个模型，图生视频用另一个，视频修复用第三个，风格迁移用第四个……每切换一个工具，都意味着上下文信息的丢失和创作流程的断裂。
SkyReels-V4提出了一个精巧的「通道拼接+时序拼接」双维统一范式。
它的核心思想是：无论你想做什么任务——文字生成视频、图片生成视频、视频延展、区域修复、风格迁移、物体移除——本质上都可以被转化为「给定某些已知条件，生成未知区域」的修复问题。
通过一组灵活的输入组件，模型只需要调整掩码配置就能在不同任务间无缝切换。
比如文生视频时掩码全为0（完全从零生成），图生视频时只有首帧掩码为1（锁定参考图，续写后续画面），视频编辑时保留区域掩码为1、编辑区域掩码为0（只改你想改的部分）。
这种设计的优雅之处在于：用户不需要关心底层在调用哪个功能模块，只需要告诉模型「我想要什么」，模型自己就能理解并执行。
它让专业级视频创作从「工具链操作」变成了「意图表达」。
第三，高效生成策略——在质量和速度之间找到最优解。
1080p分辨率、32FPS帧率、15秒时长——这个规格参数放在一年前，光是计算量就足以劝退大多数研究团队。
SkyReels-V4的工程团队设计了一套巧妙的「低分辨率全序列 + 高分辨率关键帧」联合生成策略：模型先快速生成低分辨率的完整视频和高分辨率的关键帧，再通过专门的超分辨率和帧插值模块重构最终的高质量视频。
配合自研的视频稀疏注意力（VSA）机制，注意力计算成本降低了约3倍，让影院级规格的视频生成真正具备了实用价值。

此外，模型还采用了多阶段渐进式训练策略——从256px的文本到图像预训练起步，逐步扩展到480p、720p、1080p的多分辨率训练，最后通过大规模多模态数据和精选高质量数据的微调进行精打细磨。
这种「由粗到精」的训练路径，确保了模型在每个分辨率等级上都有扎实的基础能力。
视频+音乐
未来市场爆发的金矿
SkyReels-V4 并不是一个孤立的产品——它是昆仑天工「全模态 AI 创作生态」拼图中的关键一块。
昆仑天工旗下还有一个同样在全球市场打出声量的产品：AI 音乐创作平台 Mureka。
Mureka O1 是全球首个引入 CoT（思维链）技术的音乐推理大模型，在音乐创作质量上全面超越了 Suno 等竞品，登顶 SOTA。
最新的 Mureka V8 在音色、演奏技法、情感表达上持续突破，用户遍布全球 100 多个国家和地区。
当我们把 SkyReels-V4 的视频生成能力和 Mureka 的音乐创作能力放在一起看，一个巨大的想象空间打开了：一家公司同时拥有全球顶尖的视频大模型和音乐大模型，从画面到声音、从配乐到人声、从特效到情感表达，全链路打通。
这意味着一个品牌方可以用一句话描述自己想要的广告创意，从画面、配乐、旁白到音效，一站式生成完整的视频广告。
一个独立音乐人可以把自己创作的歌曲直接变成高质量MV，不需要再花费数万元请拍摄团队。
一个教育机构可以把课程内容自动转化为配有讲解语音、背景音乐和动态画面的教学视频。
在当前的 AI 市场上，同时在视频和音乐两个赛道都达到全球领先水平的玩家，屈指可数。
可以说，视频+音乐的未来市场，是一座亟待爆发的金矿。
国外大厂已经纷纷下手，比如谷歌推出的Veo 3与Flow工具链，能同时生成视觉内容与音乐轨道，甚至整段视频和声音都能按需生成，直接就能一站式创作短片。

Adobe在Firefly中新增了AI Soundtrack与AI Voice-over生成器，可以根据视频风格自动生成背景音乐，由此，广告视频可以自动配乐，影视预告片可以快速做出Demo。

美国AI语音/音乐公司ElevenLabs发布了与著名音乐人合作的AI生成项目，同时计划结合视频和音乐创作。
本质上，这条路线也是视频+音乐创意协同生成的未来方向。

ElevenLabs的最新项目：Liza Minnelli和Art Garfunkel
现在，这些大厂尝试的路径，昆仑万维已经完美复现！
SkyReels-V4的出现，恰逢其时
昆仑天工的技术报告已经明确展示，SkyReels-V4和Mureka之间的技术协同已经在实际产品中落地——此前发布的全网首支AI音乐人MV，音乐由Mureka生成，视频由SkyReels技术支撑，就是这种全模态能力的一次预演。
巧合的是，AI视频生成市场正处于一个微妙的转折点。
Seedance 2.0的横空出世毫无疑问搅动了整个行业，冯骥称其「Kill the game」，影视飓风的Tim连呼六次「恐怖」，海外社交平台上一码难求。
但硬币的另一面是：Seedance 2.0在爆红的同时迅速遭遇了风控收紧，大量被Seedance 2.0惊艳效果吸引、但因风控收紧的创作者，正在积极寻找替代方案。
SkyReels-V4恰好在这个时间窗口，交出了一份足够硬核的成绩单。
更重要的是，SkyReels-V4 的「全模态参考」能力——支持文本、图像、视频、掩码、音频等多种输入组合——在功能覆盖度上甚至比Seedance 2.0更为全面。
对于那些需要稳定、专业、全流程视频创作能力的用户来说，SkyReels-V4 提供了一个值得认真考虑的选择。
当然，AI视频生成是一个百花齐放的赛道，每个模型都有自己的优势和适用场景。
但SkyReels-V4用这次榜单成绩证明了一件事：在这场全球竞技中，中国AI视频技术不只有一个选项。
持续迭代的长期主义
回顾昆仑天工在视频大模型领域的发展轨迹，你会发现SkyReels-V4的崛起绝非偶然。
2025年2月，开源SkyReels-V1——中国首个面向AI短剧创作的视频生成模型，基于千万级级影视数据训练，支持 33 种微表情和 400 多种动作组合。
2025年4月，发布SkyReels-V2——全球首个使用扩散强迫（Diffusion Forcing）框架的无限时长电影生成模型，在VBench1.0评测中拿下开源最高分。
2026年1月，开源SkyReels-V3——新一代多模态视频生成系统，支持1-4 张参考图像输入，实现多主体视频生成、音频驱动和视频到视频生成。
2026年2月，SkyReels-V4发布——全球首个同时支持多模态输入、联合音视频生成、统一全场景任务的视频基础模型，Artificial Analysis全球榜 TOP2。
从 V1 到 V4，每一代的迭代都不是简单的参数堆叠，而是架构层面的创新突破。
V1 解决了影视级质感的问题，V2 攻克了无限时长生成的难题，V3 引入了多模态参考能力，V4 则实现了音视频联合生成和全场景统一框架的终极整合。
这种持续创新迭代的节奏，配合 Mureka 在 AI 音乐领域的领先地位、Skywork 系列在大语言模型和多模态推理上的突破、以及 DramaWave 短剧平台的商业化落地，昆仑天工正在构建一个覆盖「算力—模型—应用」的完整 AI 生态闭环。
AI 视频创作的
「大一统」时刻正在到来
站在2026年初回望，AI视频生成领域在过去一年经历了翻天覆地的变化。
从Sora掀起的第一波浪潮，到Veo、Kling、Seedance等模型的百家争鸣，再到SkyReels-V4以「全模态参考+音视频联合生成+统一任务框架」的三位一体能力冲上全球榜单前列——我们正在见证一个新时代的开启。
在这个时代里，视频创作不再是专业团队的专属特权，而是每一个有创意的人都能触及的表达方式。
而SkyReels-V4所代表的技术方向——用一个模型、一次操作，完成从文字构思到音视频成品的全流程创作——正是通往那个未来的最清晰路径。
昆仑天工在技术报告中透露了未来三大方向：扩展更长时长（30 秒+）的视频生成能力、增强实时交互编辑功能、开放模型API接口与更多创作工具生态集成。
这些方向中的每一个，都将进一步拉近AI视频创作与专业影视制作之间的距离。
AI 视频的竞赛远未结束，但SkyReels-V4已经用全球TOP2的成绩证明：在这条赛道上，来自中国昆仑天工的声音，值得全世界倾听。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

7273辆比亚迪汽车“远航”欧洲，南通打通新能源汽车出海新通道

台积电高管：尚未深入研究“韬定律”，不要忘记晶体管重要性

Arm CEO与黄仁勋同台：Windows+Arm生态已就位，联手“重新定义PC”，AGI CPU正式量产

马德里理工大学揭示了语言模型词汇被"暗中删除"的真相

独立研究者设计的AI"调度大脑"：让多智能体系统学会自己安排工作

清华大学提出：让AI"读懂"自己的学习过程，训练效率提升20%

全站最新

7273辆比亚迪汽车“远航”欧洲，南通打通新能源汽车出海新通道

台积电高管：尚未深入研究“韬定律”，不要忘记晶体管重要性

Arm CEO与黄仁勋同台：Windows+Arm生态已就位，联手“重新定义PC”，AGI CPU正式量产

马德里理工大学揭示了语言模型词汇被"暗中删除"的真相

热门推荐

7273辆比亚迪汽车“远航”欧洲，南通打通新能源汽车出海新通道

台积电高管：尚未深入研究“韬定律”，不要忘记晶体管重要性

Arm CEO与黄仁勋同台：Windows+Arm生态已就位，联手“重新定义PC”，AGI CPU正式量产

马德里理工大学揭示了语言模型词汇被"暗中删除"的真相

独立研究者设计的AI"调度大脑"：让多智能体系统学会自己安排工作

清华大学提出：让AI"读懂"自己的学习过程，训练效率提升20%

英特尔陈立武：Agentic AI驱动CPU复兴，英特尔剑指全栈AI计算平台

BEYOND Expo2026观察：具身智能的“ChatGPT时刻”还没到，机器人公司在争什么？

科兴再签6项国家科技重大专项

UIUC研究团队揭示大模型创造力的真正瓶颈在哪里

警惕AI一键生成，它正在剥夺我们创造的快乐

西北大学等五所高校联手：让AI游戏机器人像人类一样"记住"技能

斯坦福大学研究团队如何让机器读懂人类对话中的情感信号

浙江大学与阿里巴巴联合提出的记忆系统故障溯源框架

谷歌云的这套"真相探测仪"彻底揭穿了它们的把戏