人人都在卷多模态,可多模态之后呢?
直到今天,终于有人给出了清晰答案——而且是刚刚把多模态卷到全球第一梯队的国产玩家。
不是更强的模型,而是平台。
更关键的是,这个判断并非来自一次普通发布,而是出现在中关村论坛这一国家级科技创新平台之上。
天工AI董事长兼CEO周亚辉在《世界模型前沿技术与天工AIGC全家桶大模型生态》发布会上分享:
过去三年,第一次跃迁已经完成。从移动互联网的流量经济,进入了大模型工具时代。而现在,第二次跃迁正在发生。从大模型工具时代,迈向AI平台经济,也就是AI原生的平台经济时代。在这个新时代里,模型是引擎,平台是工厂,创意创作者是老板,三者合为一体,让每个人都能充分释放创造力。
![]()
当“平台”二字一出,台下的我们此刻终于明白天工AI之前那些看似费解的动作:
为什么死磕原生多模态?为什么在视频、音乐、游戏等领域四面出击?为什么模型更新节奏飞起?
答案其实很简单。
因为自打选择All in AGI和AIGC开始,这条路将会经历什么、以及终点何在就已经写好了——
不是单纯做一个更强的模型,而是搭一套完整的AI平台。
从天工AI以往的实践来看,这个平台包含内外两层。内层是从技术→模型→应用的完整闭环;外层则是这个闭环吸引开发者、创作者和合作伙伴不断加入后,由平台演化而成的生态。
所以,当天工AI如今又摆出2026 AGI战略和三大模型“全家桶”时,一切就都说得通了。
天工AIGC“全家桶”来了
说回此次发布会。
这一次,天工AI直接一口气发布了三款模型——不仅量大管饱,而且每一个都位居各自赛道的全球第一梯队。
AI游戏世界模型Matrix-Game 3.0AI视频大模型SkyReels V4AI音乐大模型Mureka V9
当这几个模型同台亮相时,我们这才意识到:
原来它们此前并非孤立推进,而是在逐步拼出一个“可理解、可生成、可交互”的世界模型雏形。
游戏世界模型率先把能力放进可交互场景中跑起来,视频与音乐则在此基础上不断补齐世界的理解与表达维度,三个模型互相配合、彼此反哺,在应用中不断迭代完善。
然后只要等到每个模型足够强大、这套闭环真正跑通时,天工AI的世界模型,也就不再遥远了。
![]()
至于当下天工AI离世界模型还有多远,不妨一起看看这次发布的三款模型。
游戏模型Matrix-Game 3.0
对于游戏世界模型,天工AI的思路很好懂——
既然世界模型主打“可交互”,那不如早早把模型丢进游戏这种实时交互环境里,让它一边生成一边学习。
而这,就是Matrix-Game系列模型正在做的。
到Matrix-Game 2.0,天工AI已经让实时交互这件事变成了现实,3.0则主要解决两个业界“老大难”:
长时序一致性(Memory)高分辨率实时生成(Resolution + Real-Time)
![]()
过去很多世界模型,本质上仍未脱离“视频生成模型”的范畴——几秒十几秒OK,一旦拉长就开始“失忆”,出现场景变形、物体突然消失等“鬼畜”现象。
所以Matrix-Game 3.0决定给模型补上“记忆”。
生成当前帧时,它不光看最近几秒的画面,还会根据当前视角,从之前的长视频里找出相关的关键帧一起参考。
而且还会进一步通过几何信息看懂“同一个场景不同角度该咋对应”。
这样一来,哪怕过了一分钟,再回到同一个位置,生成出来的内容依然一致。
换言之,模型对世界的长期记忆能力,现在已经来到了分钟级。
![]()
视频地址:https://mp.weixin.qq.com/s/lNdMYYhM3bYHPvLD7Bkr1A
另外,世界模型由于主打“边交互边生成”,所以对实时性要求极高。
Matrix-Game 3.0目前交出的答卷是——在720P分辨率下,5B模型实现最高40FPS的实时生成。
这意味着模型不再只是一个离线生成工具,而是可以像游戏引擎一样运行起来:
用户按下键盘、移动视角,模型立刻给出反馈,整个世界随之变化。
而为了突破实时性瓶颈,天工AI用三招将原本“慢而复杂”的生成流程,压缩成一套可以实时运行的系统。
减少步数:大幅压缩推理步数,把生成速度拉上来;提前适应:训练阶段就让模型模拟真实运行,一次生成多段内容,提前适应长时间运行时的误差累积;边生成边纠偏:让模型在高速生成的同时,不断自我校正。
到这里,当模型同时解决了实时性与长时序问题后,世界模型才真正从“视频生成器”,变成了一个“可交互系统”。
当然,要做到这一步,靠的可不只是模型本身——背后是数据引擎、模型架构、推理部署三个层面的系统性升级。
![]()
昆仑万维首席科学家、香港中文大学教授成宇表示:
从技术趋势来看,世界模型的发展经历了几个关键跃迁:从video到world,从生成视频到生成可交互的环境;从offline到real time,从离线生成到实时交互;从短时记忆到分钟级长序列一致性;从学界可研究的模型到产品商业化。而在Matrix-Game 3.0上,我们从数据、模型、推理三个层面,完成了关键跃迁——从可运动的交互demo,走向具备稳定性和工业级生成能力的世界模型系统。
![]()
视频模型SkyReels V4
再看视频模型SkyReels V4。
它的出现恰好回答了一个问题:为什么做世界模型,大多从视频模型开始?
背后的逻辑其实很直接——视频是世界模型最好的“训练场”。
相比静态图片,兼具时空维度的视频包含了物体运动、光影变化、因果关系等物理规律,这些正是世界模型需要理解的核心能力。
输出方面,视频模型练的是“预测下一帧”,世界模型则是“预测下一秒”,后者需要前者提供坚实支撑。因为只有先看懂世界如何运转,才能与之交互。按成宇的话来说就是:
世界模型的核心在于学习一个状态转移参数,给定当前状态和动作,预测下一个时刻的状态。与传统的生成模型不同,世界模型不光关注当前的生成结果,更关注动作建模与环境交互之间的因果关系。因此,它具备三个特征——动态性、可交互性和物理一致性。
![]()
那么,接下来的问题就只剩下:SkyReels V4已经走到哪里了?
答案上周已经揭晓——最最最前排。
在Artificial Analysis文转视频(含音频)全球榜,SkyReels V4超越Veo 3.1、Sora 2等国际主流模型,直接登顶。
而它能脱颖而出,关键就在于解决了AI视频生成的四大顽疾:音画不同步、可控性差、缺叙事逻辑、商用落地难。
音画不同步,那就甩出自研对称双流MMDiT架构,从底层就把音、视频焊在一起。
视频生成可控性差全靠“抽卡”,那就把全模态参考和各种增删改功能安排上。
把文本、图片、音视频统一到一个框架里之后,首尾帧、运动轨迹、多图参考便都能用上——给的信息越具体,结果就越可控。
如果还不满意,也不用重来,直接增删改继续调,最后拿到的就是一段可以直接用的视频。
![]()
当然,上面这些还只是基础。
真要落地短剧、影视、广告等场景,光“能生成”肯定不够——还得会“讲故事”。
为了提高视频模型的叙事能力,SkyReels V4引进了强化学习。
一边用全模态语义Reward模型去盯过程,告诉模型不要只看单帧好不好,还要看整段视频是否合理。
另一边用“阶梯式课程学习”的方式,让模型从分辨率与时长、任务复杂度、数据难度三个维度,由简入繁掌握复杂能力。比如先学拍5秒的静物,再学拍10秒的走路,最后才学拍15秒的复杂剧情。
结果就是,生成的视频不再是画面的简单拼接,而是有因果、有节奏、有表达的内容。
比如仅提供一段提示词+几张关键帧,SkyReels V4就能创作时下爆火的AI漫剧:
![]()
![]()
视频地址:https://mp.weixin.qq.com/s/lNdMYYhM3bYHPvLD7Bkr1A
最后则是一个很关键也很难的一点——商业化。
前面的能力再强,如果成本下不来、流程跑不通,落地依旧很难。
SkyReels V4的做法,是把复杂问题“收敛”到一个统一框架里:生成、编辑等任务不再分散,一套系统就能跑通全流程。
同时在效率上做针对性优化——低分辨率跑全局,高分辨率补关键,叠加稀疏注意力,计算成本压到原来的三分之一。
最终,SkyReels V4在保证1080P、32FPS、15秒成片质量的同时,也具备了规模化生产视频的可能。
![]()
目前,SkyReels V4已经在天工AI海外短剧平台DramaWave中落地验证,同时也通过API对外开放。
从“可生成”到“可生产”,SkyReels V4已经迈出关键一步。
音乐模型Mureka V9
最后是音乐模型Mureka V9。
一个完整的世界显然不止有画面,还得有声音、有旋律、有情绪——而这,正是天工AI打造音乐模型的原因。
回看天工AI音乐模型的迭代过程,不难发现Mureka V9已经达到了一个新的里程碑:
从“能写出来”升级为“能按你想的方式写出来”。
![]()
玩过AI音乐的人都知道,现在的难点不是“AI能不能写”,而是写完能否让人眼前一亮,能不能写到人心坎里去。
很多时候,AI写的歌就是差那么点意思——歌词放不对地方,情绪推不上去,该唱重的地方唱轻了。
针对这种“表达偏差”,Mureka V9依托进一步优化的自研MusiCoT技术,在段落内文本控制、生成效率、混音质量与整体听感上进行了全方位打磨。
所以现在,模型不再只是按照提示词“生成一段音乐”,而是以更接近真实创作逻辑的方式,理解“这一段该唱什么、怎么唱、为什么要这样推进”。
这里也浅浅放一个demo,让大家感受下Mureka V9的实力——来一首含中英法西四种语言的夏日慵懒曲。
音频地址:https://mp.weixin.qq.com/s/lNdMYYhM3bYHPvLD7Bkr1A
各位听完感受如何?
虽然目前Mureka V9的第三方跑分还没出来,但就在这两天,Mureka V8已经登顶Artificial Analysis音乐模型榜了。
![]()
只能说,如果V8就已经打败了Suno V4.5、Udio v1.5 Allegro等国际主流模型,那V9就更不用多说了。
![]()
当然,Mureka V9的价值远不止“写歌”。
更重要的是,它让“好的AI音乐是一种音乐新品类”这件事,更加站得住了。
自Mureka V8起,天工AI就把“好的AI音乐”视为一种比肩爵士、乡村、说唱的音乐新品类。
这背后,不光有Mureka V8带来的那个“啊哈”时刻,更关键的是,供给侧和需求侧都在变。
一边是被彻底改写的供给侧。音乐创作不再是低频、高成本的少数人游戏,而是模型驱动下高频、可迭代、可版本化的日常生产。
另一边是被日渐激活的需求侧。当人们发现用AI能随时随地表达情绪、记录生活,那么音乐就从一种被动消费内容,变成了一种新的用来表达自我的语言。
于是天工AI相信,在供给与需求同时发生结构性变化的情况下,行业必然会出现新的平台形态,用以承载这种AI原生的内容形态、创作方式与用户行为。
正如Spotify在流行音乐时代所扮演的角色一样,AI音乐这一新音乐品类,也需要一个中心平台,来连接创作者、用户与分发生态。Mureka正是在这一判断下诞生的产品。
而从Mureka V8到V9,正值AI音乐从“模型效果探索期”进入“系统能力与工程化竞争期”的关键节点,天工AI用稳居全球第一梯队的实力把这个判断一步步做实了。
![]()
现在,当我们把三大模型的能力拼在一起时,天工AI关于世界模型的图景便逐渐清晰了:
Matrix-Game系列先把视觉与交互能力组织成一个可以实时运行的世界框架,SkyReels系列进一步承担对世界的理解与预测,Mureka系列则补齐表达与情绪维度。
在这个框架之上,声音、音乐等多模态能力还可以不断接入,最终走向一个更完整的可交互世界。
至此,一个可运行的世界模型雏形,已然出现。
原来天工AI下的是这样一盘棋
但问题是:这和我们开头讲的“平台”有啥关系?
很多人一看到三大模型齐发布,就会下意识以为,这不过是一次“模型的集中上新”。
但如果告诉你,这里的每一个模型都已跻身全球第一梯队,你是否会觉得事情开始变得不一样了。
没错,这正是天工AI在将多模态卷到顶之后的想法——让模型不再只是能力本身,而是变成可被组织、调度的平台资源。
至于怎么搭这个平台,天工AI董事长兼CEO周亚辉在发布会上将其总结为“3+1战略”,即三大场景大模型+天工超级智能体(Skywork Super Agents)。
我们正式发布昆仑万维2026年的AGI战略升级,即“3+1”生态架构。相比三年前,最大的变化在于收敛。底层是四大SOTA大模型——视频、音乐、游戏世界模型,再加上面向Agent的Skywork 6.0,这是我们整个体系的引擎。上层是三大AI原生平台经济体,通过SOTA模型驱动内容生产,再结合平台分发,形成端到端的闭环。最后那个“1”,就是Skywork Super Agents。它是背后的通用操作系统,是面向未来5亿内容创作者的“一人公司操作系统”。
![]()
拆开来看,这套战略并不只是模型层面的能力组合,而是已经延伸到了具体的产品与平台形态:
游戏世界模型→新一代AI开放世界模拟游戏平台“猫森学园”;视频模型→海外付费短剧平台DramaWave(“AI版Netflix”);音乐模型→AI音乐创作与分发平台Mureka(“AI版Spotify”)。
显然,天工AI是想搭建这样一套体系——
底层是多模态模型能力,中间是统一调度的智能体,上层则是面向开发者与行业的应用与生态。
也就是说,到了现在这个阶段,天工AI已经在思考模型之后的下一步了,即如何将其组合成一个真正可用的系统。
那么问题来了,对天工AI来说,为什么是现在呢?
模型实力肯定是一部分原因。
无论从行业出发,还是天工AI自己取得的成就,都在说明模型能力已经到了临界点。
换言之,多模态协同已经具备了基础。
但更深的变化,其实还是来自产业侧——过去AI更多是工具,但现在开始进入生产流程本身。
要理解这一点,在以《全模态内容革命:AI游戏、AI视频、AI音乐的创新、落地与生态共建》为主题的圆桌环节,几位嘉宾的切实分享便是最直接的印证。
QQ炫舞创始人姚勇(下图左三)观察到,AI正在逐个击破游戏开发的“新鲜、好看、好玩”三座大山,将过去“费钱费时间”的环节大幅压缩。
电子音乐人、多领域创作者朱婧汐(右二)则将AI视为“同时打开很多扇窗”的助手,能帮她从几十种可能性中快速选择创作方向。
以前需要和制作人在录音棚里一个一个试风格,耗时费力,而现在AI可以瞬间生成几十种可能性,甚至是“非常抽象、夸张、不可思议”的尝试。
导演周楠(右一)则指出,对普通人而言AI降低了创作门槛,对专业创作者而言,真正的挑战在于如何让AI理解电影的专业语言(比如镜头、剪辑、叙事)——而这正是他们正在攻克的“临门一脚”。
只能说,在最先接触到AI的这批玩家里,AI已经成了他们工作流中不可或缺的角色,只不过鉴于AI能力还有增长空间,所以一时还各有难题需要解决。
![]()
Anyway,这些产业一线人员的经历表明:
当AI从“辅助”走向“参与”,甚至开始“主导”部分生产环节时,单点能力已经不够用了。
于是提前洞察这一趋势的天工AI,早早就给出了全模态的解法。
为什么要做全模态?昆仑万维董事长兼CEO方汉举了一个非常生动形象的例子:
全模态之所以存在就是为了降低表达门槛,比如为什么要做视频,这是因为世上还有很多人不识字,如果只有文字那么这部分人就无法表达自我、“被看见”。所以,全模态就是我们为了让所有人表达自己,而必须要走的一条路。
而在天工AI实现全模态后,接下来真正决定上限的,是能否把这些能力组织起来,承载真实的生产与交互。
而这,正是天工AI选择在这个时间点提出“3+1战略”的深层原因。
从这个角度讲,这次发布的意义不只是模型更强了,而是天工AI已经开始着手搭建一个AI平台——
一个将单模态能力组织起来,形成可持续、可规模化内容生产的系统。
从多模态来,到平台生态去。
全球第一梯队,迎来“全能”国产玩家!
而在发布会之外,天工AI转向“平台”背后还释放了更直接的信号:
全球第一梯队,迎来了一位全能国产玩家。
怎么说呢?这就像给整个行业投入了一尾鲶鱼,让竞争焦点从单点能力转向体系化能力。
![]()
过去一段时间,AI行业的竞争大致分成两条路径:
一类玩家主要在单一模态上卷极致,比如大家熟悉的Midjourney、还未“消亡”前的Sora等,一听名字你就知道它们是干啥的。
另一类则开始尝试把单一模态的能力拼起来,朝着一个统一的系统或平台发力。由于要做的事情更多更复杂,所以业界普遍认为后者更难。
现实中,后者不仅考验模型能力本身,还要求在架构设计、工程能力、产品形态乃至生态构建上形成协同——
任一环节掉链子,整套体系都很难成立。
也正因如此,真正走到这一步的玩家,始终寥寥。
而天工AI作为后者之一,它走到“平台”这一步,并不是偶然。
自母公司昆仑万维2022年确立“All in AGI与AIGC”战略以来,天工AI已经构建起“模型+产品”的完整矩阵。
一张图总结如下:
![]()
如果说这张图展示的是能力布局,那么实际表现同样给出了验证——目前昆仑万维的海外服务覆盖全球100多个国家和地区,全球平均月活跃用户近4亿,海外收入占比达92%。
所以回过头看,天工AI其实早就在为“平台”铺路:
从原生多模态的持续投入,到视频、音乐、游戏等多个方向的同步推进,再到这次以“3+1战略”为核心的整体亮相,这条路径始终在向同一个目标收敛。
而且虽然前面一直在说多模态,但天工AI实际上已经做到了“全模态”。
![]()
有一说一,互联网发展至今,几乎所有公司都曾试图“做平台”,毕竟“一流公司做平台”的口号已经深入人心。
但最终能够真正跑出来的,始终只有少数几家。
绝大多数失败者,往往败于“先搭台、后唱戏”——平台是建起来了,却没有足够稀缺的能力来支撑。
而天工AI的路径恰恰相反,先拿下“全模态”这张硬牌,再向平台延伸。
因此,虽然天工AI能否成为幸运儿尚未可知,但至少,这第一步算是已经抢先迈出去了。
而且别的不说,能在中关村论坛开AI专场(拿下国家级平台背书与政府认可),本身便是实力的证明。
Matrix-Game 3.0开源地址:
主页:https://matrix-game-v3.github.io/
代码:https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-3
模型:https://huggingface.co/Skywork/Matrix-Game-3.0





京公网安备 11011402013531号