当前位置: 首页 » 资讯 » 科技头条 » 正文

刚刚,一口气发3个王炸模型、亮出2026年AGI战略,昆仑万维夯爆了

IP属地 中国·北京 机器之心Pro 时间:2026-03-28 00:16:17

编辑|杜伟

就在 27 日下午,在火热进行中的 2026 中关村论坛上,一家国产头部 AI 厂商引爆了全场!

昆仑万维,这家 2022 年便已「All in AGI 与 AIGC」的实力玩家,亮出了其实现通用人工智能终极目标的最新「武器库」。



作为兼具国家影响力和国际化视野的高规格论坛,一年一度的中关村论坛成为了汇聚国内外产业界、学术界、投资界一线代表的舞台。本届论坛以「科技创新与产业创新深度融合」为主题,吸引了来自 100 多个国家和地区的上千名嘉宾参与。

在会上,昆仑万维旗下天工 AI 重磅发布了全新 AI 游戏世界模型 Matrix-Game 3.0AI 视频大模型 SkyReels V4AI 音乐大模型 Mureka V9,在继续强化 AIGC 理解与生成能力的同时,进一步推进 AI 对物理世界的建模与仿真。

一出手就是三大王炸,这三款大模型全都迈进了世界第一梯队,跑分成绩尤为亮眼。

其中,SkyReels V4 在 Artificial Analysis 基准测试中分别夺得「带音频文生视频」和「带音频图生视频」榜单全球第一,以及图生视频(不带音频)榜单全球第二(截至 2026 年 3 月 18 日评测结果)。



在与 Suno V5、前代 Mureka V8 的较量中,Mureka V9 在音乐旋律性、音乐表现力、编配编曲等主观指标上全面胜出



Matrix-Game3.0 主页:https://matrix-game-v3.github.io/SkyReels V4 官网:https://www.skyreels.ai/Mureka V9 官网:https://www.mureka.cn/

在三大新模型集中亮相之外,昆仑万维对外公布了其2026 AGI 战略,为完成「实现通用人工智能,让每个人更好地塑造和表达自我」的使命给出了更清晰的路径指引,并释放出了一个明确的信号:未来三年,AI 发展将从全模态能力突破进入到平台化构建阶段。



天工 AI 董事长兼 CEO 周亚辉

在昆仑万维的战略设想中,在底层全模态基础模型与中间层超级智能体之外,还要向上拓展应用层,探索更丰富的产品形态,包括面向内容消费与生产的短剧平台DramaWave、面向音乐创作与分发的平台Mureka以及面向互动娱乐的游戏世界猫森学园

当这三层实现协同运转,AI 的形态也随之发生变化:不再是一个个孤立的模型或工具,而是一个可以持续运转的系统。



随着这套体系慢慢跑起来,AI 原生的平台经济将开始走向落地。届时,每一个创作者将拥有匹敌一家公司的全栈生产力。

记得住、跑得久、跑得快

世界模型补齐关键短板

自去年 5 月开源 Matrix-Game 系列 1.0 版本以来,昆仑万维对交互式世界模型的探索一直没有停歇。之后 8 月继续开源 Matrix-Game 2.0,其被打造成为了业界首个实时长序列交互式世界模型,在键盘按键的控制下可以做到分钟级的实时互动。

此次,Matrix-Game 3.0 补齐了世界模型存在的三大短板:记不住(记忆)、跑不久(长时程)和跑不动(实时 + 分辨率)。其核心价值在于对这些短板进行解构,贯通数据、记忆与实时生成三大环节,推动系统从生成片段迈向运行世界。



首先数据层面,构建可无限扩展的世界模型数据引擎。Matrix-Game 3.0 在数据形态、生产方式和工程层面均给出了创新性解法。

数据形态上,补上过去互联网数据缺失的关键一环,从传统的纯视频升级为同时包含视频、位姿、动作乃至提示词的多模态对齐数据;生产方式上,采用 Unreal Engine 合成数据 + 真实 3A 游戏采集的双管线体系;工程上,从探索、采集到标注与质检全流程自动化运行。

一套流程走下来,世界模型不再受限于数据获取,而开始拥有一台可以不断产出「世界」的数据引擎。

其次模型架构层面,在算力效率与记忆能力之间建立起了一套协同机制,同时实现 720p 实时生成与分钟级长时序稳定演化这两个目标

为此,Matrix-Game 3.0 在训练阶段重构视频生成范式之外,着力解决了「控制信号注入」和「长时序抗漂移」两个关键问题。



整体架构概览

控制层面将用户动作显式引入模型,其中鼠标信号通过 Self-Attention 直接作用于当前视觉生成,保证即时交互准确响应;键盘动作则通过 Cross-Attention 注入,负责引导整体运动趋势,使模型在长序列中依然保持稳定的行为方向。两者协同,实现高质量与控制性的统一。

长时序稳定性层面引入 Error Buffer 机制,显式建模生成帧与真实帧之间的误差,并作为条件回注模型;同时通过对历史帧进行误差扰动训练,让模型在训练阶段就习惯偏差,在推理时具备抗误差累积能力,避免随时间推移出现结构漂移与内容崩坏。

这套机制让模型不只是完成生成任务,更能在持续演化过程中保持一致性与可控性,真正具备了长时间稳定运行的能力。



Memory 注入

记忆层面通过一个统一的 DiT 框架,将长期记忆、局部历史帧以及当前预测目标进行联合建模,从而在保证生成连续性的同时,实现跨时间的信息利用。



长时序一致性蒸馏

最后推理部署层面,让高分辨率下的实时运行成为可能

Matrix-Game 3.0 采用具备长期记忆能力、且能够抵抗误差累积的基础模型作为教师模型进行蒸馏,并利用「上一段输出作为下一段输入」的多段式联合训练,强化模型长时序连续推理能力,使其在生成过程中能够保持记忆与稳定性。同时结合模型量化与 VAE decoder 蒸馏等优化手段,将模型压缩至约 5B 规模,并在 720p 分辨率下实现实时生成

不仅如此,随着模型规模继续扩展,Matrix-Game 3.0 依然可以实现真实场景泛化、第一 / 第三人称多视角一致性与长时序稳定运行,其中MoE-28B 模型已将生成时长推进至分钟级



1 分钟游戏画面生成

与前代一样,昆仑万维已经开放了 Matrix-Game 3.0 的代码与模型权重:

GitHub 地址:https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3Hugging Face 地址:https://huggingface.co/Skywork/Matrix-Game-3.0

告别音画拼接

AI 视频走向原生一体生成

其实,昆仑万维的视频大模型在前段时间已经在社区引发了热议。在 Artificial Analysis 文生视频(带音频) 赛道击败 Sora 2、Veo 3.1 之后,SkyReels V4 的能力得到了社区的高度认可。



作为 SkyReels 系列的最新版本,SkyReels V4 在 V1(短剧创作)、V2(无限时长电影生成)和 V3(多模态视频生成)的基础上,进化为「全模态音视频联合生成、修复与编辑」的大一统模型。从此,AI 视频不只是简单地生成一段画面,而是像人类一样具备基本的叙事能力。

这一变化的背后,离不开 SkyReels V4 在底层架构、全模态控制、强化学习范式、效率优化等多个层面的系统性升级。

首先也是最关键的变化:其从底层架构重写音视频生成方式,采用原生音画一体的双流 MMDiT 架构,替代「先画面、后音频」的串行方式,将音视频在同一语义空间中联合建模。

为此,模型采用对称双分支设计,音频与视频共享同一文本编码器,在统一语义空间中完成理解与生成,最终实现口型、动作与声音的精确对应。同时,引入额外的文本控制以增强视频语义稳定性,并通过联合训练让音视频在生成阶段就保持协同,而不是依赖后期对齐。

AI 视频的生产方式,从多模态拼接走向原生一体生成。



其次,SkyReels V4实现了生成、编辑与修复的大一统,使视频创作具备更细粒度的调度能力。

能力上支持首尾帧、多帧、多图、运动等参考方式,覆盖从生成到精细编辑的全流程需求,包括元素增删、风格迁移与水印处理。同时能够基于网格图直接生成结构完整的叙事片段,从源头解决角色走形与场景跳跃问题。机制上将生成、编辑与修复收敛为同一套掩码补绘框架;同时引入参考图像 / 视频作为上下文,使角色特征与场景风格可以被稳定锁定,在跨帧中持续保持一致。

接下来,SkyReels V4结合使用强化学习体系与工程优化策略来增质提效

为了使视频内容兼具逻辑连贯性、物理合理性与美学质感,引入全模态语义 Reward 体系,对生成结果进行实时校正,减少逻辑偏差与物理错误;同时采用阶梯式课程学习,从低分辨率、短时长任务过渡到高复杂度生成,逐步建立稳定的叙事能力与表达能力。

为了降低计算开销,采用「低分辨率全序列 + 高分辨率关键帧」的联合生成策略,再结合超分与帧插值来恢复画质,保证整体一致性的同时降低计算压力。同时引入 VSA 稀疏注意力,最终将计算成本降低约 3 倍,实现 1080P 分辨率、32FPS 帧率、15 秒时长的影院级内容生成

SkyReels V4 的一整套方案,不以成本为代价换取画质,而是在两者之间建立平衡,使高质量视频生成具备了规模化生产的可行性。

当然,数据层面的重构也是这套体系高效运作的关键。SkyReels-V4 构建了一套覆盖图像、视频、音频的统一数据体系,通过「真实 + 合成」双管线保证数据规模,配合多维质控与结构化 caption,对齐音画与语义表达,为全模态生成提供稳定的数据基础。

我们来看下实战效果,提示词是这样的:「电影级赛博朋克风视频:动态跟拍一艘深色流线型飞船(@ ship-1)在未来都市中高速飞行。镜头始终位于飞船后方,蓝色尾焰明亮,穿梭于高楼峡谷之间。城市充满红白蓝霓虹与雾霭背景,冷色调与高反差光影营造氛围。摄像机随飞船滚转倾斜,光粒与光流增强速度感。一镜到底,沉浸式高速飞行体验。」



从生成到创作

让好听变成一种可控能力

自两年前问世以来,昆仑万维的音乐大模型一再地带给我们惊喜。

几天前,Mureka V8 在 Artificial Analysis 的 vocals(人声)和 instrumental(乐器)榜单上双双登顶,综合实力超越了 Suno V4.5、Udio v1.5 Allegro、Lyria 2 等国际主流 AI 音乐模型。



这也让人更加期待,下一代 Mureka 会以怎样的方式改写音乐生成的边界。刚刚亮相的 Mureka V9,果然没有让人失望。



此次,Mureka V9 围绕音乐创作过程中最关键、最影响结果的几大环节进行全方位优化:

表达更到位:歌词、情绪与段落推进能够更精准地对齐,想表达的点基本能落到该落的位置。成品感更强:混音、音色与空间感更统一,整体听感更接近一首完成度较高的作品。人声更克制:该唱的时候唱到位,不该出现时不过度介入,表达更干净。反馈更快:从输入到出结果,链路更顺畅,试错和迭代成本明显降低。结果不易撞车:旋律与编排的重复感下降,同一方向下也能跑出更多变化。

这些能力的提升建立在MusiCoT(Music Chain-of-Thought)技术底座的持续优化之上:

模型不再停留在根据提示词生成声音,而是以更接近真实创作流程的方式去组织一段音乐:理解段落结构、把握表达重点,并决定每一段该唱什么、怎么唱、如何推进。

这样一来,生成结果更少地偏离创作者原本的想法,表达更贴近预期,也更稳定。基于此,音乐也不再只是用来听的内容,而开始变成一种拿来表达自我的语言

我们来听下面这段旋律,提示词为「新灵魂 / 私密爵士人声作品。灵感:日落阁楼工作室,暖光中浮尘轻扬。核心:气声近距离男声 + 温暖 Rhodes 钢琴。氛围:安静、怀旧、时光静止 —— 复古阁楼里,金色阳光缓缓透过百叶窗褪去。」



在音乐生成能力继续进化之外,Mureka V9 进一步的目标,是想把「好听」从偶发结果变成一件可以稳定做出来的事情

实现方法也很直接,把「好听」拆解开,从歌词落点、情绪是否贴合,到结构与旋律是否顺畅,一步步去校准和优化,让整套创作过程变得可复用、可积累,而不是每次都从头碰运气。从长期来看,这一点比单次生成质量更加关键。

当「好听」可以被拆解和控制之后,创作方式也随之发生根本性变化:AI 音乐不再是一次性生成的结果,而变成一个可以反复尝试、局部调整、持续迭代的过程。

传统的创作逻辑是一次生成就直接定稿,Mureka V9 则不然,先生成多个版本进行探索,再从中筛选,对局部进行调整,然后二次或多次生成与优化。在这个过程中,创作者的主要工作也开始发生变化,将更多时间花在审美与取舍上。

可以说,Mureka V9 已经不满足于只做一个音乐生成工具,而是在往创作平台走。它想做的也不再是一次性的成品,而是一种可以反复修改、持续演化的版本化作品。音乐创作者用它提高效率,优化工作流;普通用户用它表达自我。

或许,一个属于 AI 音乐时代的「Spotify」已经出现,一边连接创作与消费,一边承接内容与分发。



「3+1」战略:AGI 路径更加清晰

当我们将天工 AI 的三大模型放在一起看,就会发现,它们不仅分别对应游戏、视频与音乐三个赛道的单点能力升级,也在共同补齐一套更完整的能力结构:

Matrix-Game 3.0 聚焦「世界如何被建模与交互」、SkyReels V4 解决「内容如何被规模化生成」,Mureka V9 关注「情感与表达如何被精准控制」。

在这一框架下,通往 AGI 终极目标所需的能力组合更加清晰。而昆仑万维发布的 2026 AGI 战略,则在这些能力之上给出了路径上的独到思考。

我们可以用「3+1」来描述这一战略的完整布局,其中3 指的是三大场景大模型,即游戏、视频与音乐;1 指的是天工超级智能体

依托三大场景大模型持续突破多模态能力边界,同时借助天工超级智能体(Skywork Super Agents)对这些 AI 能力进行统一调度。

天工超级智能体于去年 5 月发布,核心能力可以归纳为三点:一是跨任务一体化执行,二是以 Deep Research 为核心的信息处理,三是多 Agent 模块的分工与协作。随着今年 OpenClaw 的爆火,Skywork 推出了 SkyClaw,打造云端 AI 原生助理;同时上线首批 6 大官方 Skills,将能力封装为可直接调用的工具。

基于此,天工超级智能体补上了「能力如何被高效调用」的关键一环,通过将不同能力串联成完整的执行链路,使任务从理解、生成到交付,一气呵成。



与此同时,昆仑万维还在围绕「平台 + 超级智能体 + 开发者 + 创作者」,搭建一套更加开放的生态协同体系。

一方面,将多模态能力以统一入口对外开放,降低门槛,使开发者与创作者能够更直接地调用这些能力进行开发与创作;另一方面,通过与产业伙伴的合作,将 AI 能力落地到游戏、视频与音乐等具体场景中,逐步完成从技术到应用的转化。

当能力、调度与场景形成闭环,AGI 的未来才更加可期。

文中视频、音频链接:https://mp.weixin.qq.com/s/g5-Y-7H1hfovmyBcB6WSqQ

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。