当前位置: 首页 » 资讯 » 科技头条 » 正文

星源智ω-EVA发布:具身智能的下一战,是行动闭环

IP属地 中国·北京 科技行者 时间:2026-06-15 22:14:02

过去一年里,世界模型几乎成了具身智能领域最热的那个词,但一个更现实的问题是:世界模型到底要拿来做什么?

如果只是生成一段关于未来的视频,它当然可以证明模型“见过”某种未来;

如果只是作为训练时的额外约束,它也确实能帮助策略模型学到更好的表征。

但真正用到机器人身上时,问题会变得更直接:

机器人不是为了看见未来,而是为了在动手之前,知道自己这一步会不会错。

在2026智源大会上,星源智发布了具身交互世界模型ω-EVA,相较其它具身世界模型,ω-EVA想要探索的正是,世界模型如何从训练辅助,进入到机器人行动决策本身?

于是,我们看到,交互成了ω-EVA的一个关键词。

在接受媒体采访时,星源智团队也特别解释了,为什么ω-EVA能够成为给全球首个具身交互世界模型。


01 “交互”让世界模型参与到动作修正中

在大会现场,星源智用一块被随机打乱的华容道棋盘解释ω-EVA。

对人来说,华容道是逻辑推理,对机器人来说,它是连续行动,每移动一步,局面都会变化,后续路径也会被重新塑造。

机器人真正要判断的,不只是“眼前是什么”,而是“如果我这样动,接下来会发生什么”。


至于ω-EVA的名字,则是来自Envision、Verify、Act,即预演、验证、行动。

它的核心不是让机器人直接输出动作,而是先生成一个动作候选,再由世界模型预演这个动作可能造成的后果,最后根据后果修正动作。

这就把世界模型的位置往前推了一步。

过去许多世界模型更像训练旁路:训练时帮助模型学习未来表征,部署时未必真正参与每一次控制决策。

ω-EVA想做的,是把世界模型放进行动闭环里,让它在一次控制决策中成为反馈模块。

具体来说,它把动作生成拆成三个环节:Proposal、Latent Consequence、Refinement,即先提出动作,再预测这个动作诱导出的潜在后果,最后重写动作。


这里的“交互”并不是机器人与人的交互,也不是简单把视觉、语言、触觉拼接到一起,而是动作候选与世界模型之间的交互。

世界模型不再只是回答“未来会怎样”,而是进一步回答:如果执行这个动作,未来会怎样?如果后果不理想,动作该如何改?

这也是ω-EVA与其他世界模型的差异。其他世界模型预测解决的是“未来如何被表征”,而ω-EVA更进一步,把未来表征变成动作修正的依据,ω-EVA的三阶段训练也围绕这个逻辑展开:


第一阶段学习以动作作为条件的潜在动力学,让模型理解某个动作会带来怎样的未来状态;

第二阶段训练世界感知的动作生成器,输出初始动作proposal;

第三阶段才是真正的关键:refiner同时接收当前状态、想象未来和原始动作候选,直接输出修正后的动作片段。

这不是“多加一个模块”那么简单,在实验中,去掉imagined future,模型表现会下降,去掉action proposal,模型表现下降会更明显。

也就是说,提升并不只是因为模型多了一层结构,而是因为当前状态、候选动作和想象后果之间形成了明确的三方关系。

星源智真正想证明的是:世界模型的价值不该只停留在“预测世界”,而应该进入“修正行动”。

02 视频生成路线的瓶颈

理解ω-EVA,也要理解星源智这次刻意避开的路线:视频生成式世界模型。

视频生成路线天然优势是直观,模型生成一段未来视频,人一眼就能判断它像不像、真不真、有没有物理合理性。

但机器人并不是观众,机器人不需要看一段漂亮的视频,它需要在很短时间内知道:这个动作会不会撞、会不会偏、会不会抓空、会不会影响下一步。

星源智联合创始人、智源研究院具身交互世界模型实验室负责人孙振国在接受媒体采访时指出,“以语言为条件的视频生成模型,在具身领域最大的瓶颈,是不能很好地对齐动作和预测视频。”

这句话其实点出了视频生成路线在机器人控制里的根本矛盾。

语言描述天然是不稳定的,同一个任务,不同人会有不同说法,同一句话,也可能对应多个动作路径,但机器人的动作不是模糊的,它必须落到手腕位姿、末端执行器状态、抓取开合、关节控制等具体变量上。


如果模型以语言作为主要条件生成未来,它可能生成一个看起来合理的画面,却未必能严格约束“这个动作”导致的“这个后果”,而机器人控制最需要的,恰恰是这种因果关系。

这也是星源智强调action-conditioned的原因,它不是问“给定一句话,未来画面是什么”,而是问“给定这个动作,未来状态会如何变化”。

更进一步,星源智并不把像素级视频生成作为建模目标,因为对于机器人来说,许多像素细节没有意义,真正重要的可能只是几个关键状态:是否接触到物体、是否接近碰撞、是否偏离目标、是否还能继续执行后续动作。

视频生成的未来,是给人看的未来,ω-EVA要用的未来,是给动作生成器看的未来。

这也是为什么它选择在latent feature space中进行后果推理,潜空间里的未来不一定可解释,不一定能被人直接观看,但它可以更紧凑、更低成本地参与动作修正。

对机器人来说,这比生成一段高清未来视频更实用。

所以,星源智这次发布的重点不是“我也能生成未来”,而是“未来为什么要被生成”。

如果未来信息不能反馈给动作,它就只是模型内部的一种能力,只有当未来能够修正当前动作,世界模型才真正进入具身智能的核心链路。

03 端侧部署是具身闭环的前提

一旦世界模型要进入动作决策闭环,端侧部署就不再是工程细节,而是路线选择。

机器人和大语言模型不同,语言模型回答慢一点,用户最多等几秒,机器人动作慢几秒,可能已经撞上货架、夹坏物体,或者在危险场景里造成不可接受的后果。

星源智创始人兼CEO刘东在接受媒体采访时指出,“如果把机器人作为一个Agent来看,它必然要做闭环,不能几秒后才拿到反馈,尤其是当机器人与物理世界发生交互,高时延是非常危险的。”

这就解释了为什么星源智反复强调,具身世界模型要能在端侧部署。

如果模型不能在端侧运行,机器人就只能依赖线缆、局域网或云端协同,但真实机器人身上往往有多个摄像头、激光雷达和其他传感器。

要把这些感知数据实时传到云端,再等云端推理后返回动作,带宽、延迟、成本和稳定性都会成为问题。更不用说仓库、工厂、电力巡检等场景,并不总有理想网络环境。

端侧部署的意义,在于让感知、推理、决策和执行都尽可能靠近机器人本体。

这也是ω-EVA选择潜空间建模的重要原因。

视频生成式世界模型如果要在推理阶段生成完整未来视频,计算成本很高,链路也更长,星源智的判断是,机器人不需要像素级未来,它需要可用于控制的关键未来表征。

刘东表示,“基于星源智的路线,算力需求并不高,端侧模组可以跑起来,而视频生成底座对算力要求很高,很难端侧落地。”


孙振国对此也补充道,“隐空间建模路线在训练和推理上理论上都更节省资源,本质差异会决定模型最终能否在端侧运行。”

这背后其实是两种产品哲学:一种路线追求更大的生成能力,先把未来“画出来”,另一种路线追求更短的控制链路,把未来压缩成能够修正动作的信号。

ω-EVA的意义也在这里:它试图证明,具身世界模型不是越大越好,也不是未来视频越清晰越好,而是要能以足够低的成本、足够短的链路、足够高的频率进入控制闭环。

端侧部署,本质上是在问一个更严肃的问题:这个模型是不是为真实机器人准备的?

04 具身智能尚处于十年前的智驾阶段

技术路线之外,星源智创始团队在现场还聊到了,他们对于具身智能当下发展进程的看法。

刘东给出的一个类比是:今天的具身机器人,大约处在2015年、2016年自动驾驶刚起步的阶段。

“那时候大家都在瞄准L4、L5自动驾驶,但其实真正的L2还没有大规模落地,这与今天的具身智能现状极为相似,行业都在谈通用具身机器人、复杂操作和实际应用,但真正能稳定落地的场景并不多。”

这个判断比许多“机器人元年”的说法要冷静。

星源智并没有把落地想象成一个全能人形机器人突然进入家庭,而是把具身设备的定义放宽了,叉车、搬运设备、拣选机械臂、巡检机器人,只要装上能够理解环境和任务的大脑,都可以成为具身智能的落地载体。

刘东提到,当前比较容易落地的场景大致有两类:

一类是纯移动任务,比如巡检、导览、导购;

另一类是抓放类操作,叠加基础移动后,可以进入仓库拣选、工厂上下料、药店拣选等场景。

实际上,具身智能的产业化不会一步到位,而会沿着结构化程度更高、任务边界更清楚、商业回报更明确的场景逐步推进。

在这个过程中,市场分工也会发生一些微妙变化。

星源智的定位不是做本体,而是做具身大脑、端侧算力平台和端侧Infra,刘东把星源智称为行业里“卖铲子的人”,他指出,未来会有大量本体公司、制造业公司、车厂、家电企业进入机器人硬件制造领域,但它们未必都具备底层大脑模型研发能力。

中国制造业不缺硬件能力,真正稀缺的是能跨本体、跨场景适配的大脑,以及对应的数据、模型和端侧部署能力。

这也意味着,ω-EVA的价值不能只看发布会上的模型指标,而要看它能否在垂类场景里带来更低部署成本、更高任务成功率和更短适配周期。

说到底,具身智能的下一战不会只是看“谁的模型更大”,也不会只是看“谁的未来视频更漂亮”,它会落到更硬的地方:

谁能让机器人在行动前完成一次有效预演,谁能让模型在端侧稳定闭环,谁能把数据、场景和模型连成持续进化的系统。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。