当前位置: 首页 » 资讯 » 科技头条 » 正文

「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?丨GAIR 2025

IP属地 中国·北京 雷峰网 时间:2025-12-20 14:11:13



世界模型解决具身智能相关问题,会不会距离太远?

作者丨张进

编辑丨林觉民

在 12 月 13 日举行的第八届GAIR全球人工智能与机器人大会“数据&一脑多形”分论坛上,一场有关“一脑多形”的圆桌论坛,将整个会场气氛推向高潮,在英诺天使基金 ED 王建明的主持下,浙江大学控制学院副教授,微分智飞创始人高飞,宁波东方理工大学助理教授金鑫,上海人工智能实验室青年科学家王靖博三位嘉宾围绕着具身智能、空间智能、世界模型等话题进行了热烈讨论。

通过主持人特有的投资人式、抽丝剥茧的提问,围绕着几位学者的研究和创业方向,我们可以了解到当下最火热的世界模型、空间智能在具身智能领域的研究进展和细节,从而得以穿透资本笼罩在世界模型、空间智能的迷雾,看到具身智能当下遇到的挑战与机遇。

01

具身智能技术路线仍未收敛

王建明:三位学者研究的方向都非常不一样,开场先问一个共性的问题热热场,大家怎么看过去两年具身智能的发展?

高飞:现在还没到技术路线收敛的时候,还属于探索阶段,这是好事,有发散才有机会。这波具身智能的热潮,大家本质期待的还是 AI 结合本体能带来的智能性的飞跃。我认为从发散探索到技术路线收敛、到最后落地阶段,大家还是要记住自己做具身智能的初心是什么。如果不是为了通用泛化智能,最后这个领域又收敛回工业自动化了,可能就没有太大的意义了。

金鑫:我也非常同意高老师的看法,我感觉这两年留给高校的机会相对产业界来讲比较少,希望未来更多把具身智能的核心问题交给高校去突破,比如交互、人机协同、多智能体、世界模型等等抽象出的关键问题,产业去做更落地的事情。希望未来两年能看到高校跟企业更好地合作、平衡。

王靖博:相比较在纯数字世界中做一些例如scaling up 的事情,我更关注具身智能软硬件的 code design,比如人形机器人十年前的波士顿动力 Atlas 就展示出了很好的运动能力,但它并没有从实验室的产品进入产业界,当有了较好的软硬件的 code design,可能会加快整个领域的进程。

王建明:高飞老师的演讲刚刚展示了特别多的能力,例如单个机器人的自主路径的规划决策、集群、飞行操作,demo 演示都非常惊艳,这些能力背后是如何做到的?跟您过往研究是否有协同?

高飞:很难有一句话来说明白怎么做到的,不同的 demo 肯定有不同的技术路线,我之所以比较擅长做一些比较 fancy 的 demo,可能是因为我比较擅长在保持着一定发散思维的情况下,还有比较好的执行力,最后能把想法落实。在具体技术路线里,我的优势可能是:在无人机领域,我可能是比较懂 AI 的;在 AI 领域,我可能是比较懂无人机的。

单体机器人的研究思路是通过放大其极限情况下的小脑能力,现在比较合适收敛的技术路线越来越往端到端的方向倾斜。通过端到端可以降低整个系统的 compound error(复合误差)和降低延迟。具体用什么解法,就要 case by case,做 robotics 的好处就是这是很尊重客观事实、面向对象的一个学科,什么好用我们用什么。

决策这块,现在业界的共识可能要通过放大 VLM的能力,而对于群体机器人而言,打造一种柔性的、弹性的、分布式的、灵活的群体架构才是一切的基础。

王建明:我比较好奇无人机的端到端是什么端到端?我的简单粗化理解大家说的端到端是一个黑箱操作,是data driven的事情。

高飞:我认为端到端和 data driven 是两个概念,举个例子,无人机的端到端是图像输入,电机控制,那是不是一定要用到机器学习、黑箱、RL,其实不一定。20年前大家研究无人机,就可能会在地上贴一个小球,无人机的摄像头看到这个小球,通过把小球的像素点控制在像平面中间,让无人机可以保持悬停。这是不是端到端?是,因为它用 PID把一端输入的信息——图像空间中的点误差,映射到另一端输出的控制指令。

端到端是一种范式,强化学习是一种解法,黑箱是一种模式,三者是不一样的概念,不应该被直接画上等号。

王建明:所以高老师的端到端也用到各种解法?

高飞:各种各样的解法,以解决问题为唯一目标。

王建明:也有涉及到强化学习?

高飞:现在用大量的强化学习。

王建明:无人机的高速穿越我印象里有强调强化学习,高老师的工作中还是有一些 rule base 的东西存在?

高飞:我们不叫rule base,我们叫 model base 或者叫 principle base,我们很少去写规则。大家经常会批判 rule base,但是如果只写了一个规则要怎么解释你的算法可以在不同的地方避障。所以它一定不是一套规则,而是一种系统化的模式。

02

世界模型解决了自动驾驶的哪些问题?

王建明:金老师刚分享了很多世界模型在自动驾驶领域的突破,金老师的研究方向主要是世界模型空间智能。最近一段时间世界模型的概念很火,那么自动驾驶的具体什么问题用世界模型来解决了?

金鑫:现在第一梯队像特斯拉的方案基本都在用世界模型,之前他们收集到的数据已经把数据飞轮转起来了,这么多数据上已经积累了大量的corner case,那么他们下一步可能就要通过世界模型模拟的方式再去生成更多海量数据,例如覆盖掉之前在国内采集的数据以及之前布局不到的地方。

再一个,跟原来通过离线数据训练相比,通过世界模型方式可以做闭环测试。闭环测试是指上线一个模型后,在世界模型里面跑,跑完后能输出action得到未来的状态,再根据未来的状态测试下一步该怎么做,就能把整个decision making 链路放到 world model 里面去做闭环的测试跟优化。这是跟原来技术方案最大的不同。

现在世界模型在自动驾驶领域为什么这么火,主要还是因为自动驾驶的场景生成还是比较简单,不像机器人。而自动驾驶领域很早就有世界模型的概念,只是叫法不一样叫闭环仿真器,用来做自动驾驶安全测试。是生成式 AI 能力的提升才使得现在世界模型生成的数据已经到了真假难辨的地步,为此提供大量非常有价值的训练样本。

王建明:视频生成是一种世界模型,如果带上机器人的3D空间,再加上很多动作维度,这个状态表征可以是多种多样的,那么在自动驾驶领域的表征是什么?是一个共识吗?

金鑫:机器人领域世界模型路线究竟对不对还存在争议。对于世界模型的定义大家也有不同的看法,例如李飞飞跟 LeCun 就存在差异。李飞飞更偏重于"pixel-wise"(像素级)重建,LeCun 认为不需要重建成人人可见可视的video,直接“ latent-based”表达出来对应的机器人的 latent state 就可以了,它也是一种世界模型,只要能够给定前序的action,能够预测出后续的action,或者state状态应该怎么变化,本体下个阶段会出现什么情况,只要能把这个阶段抽象地表达出来,都算世界模型。

所以目前世界模型的定义还没有定式,我认为在自动驾驶跟机器人两个任务之间,对于世界模型的要求跟技术范式也都有区别。最初世界模型那篇 paper 提出的概念也很抽象,只要有能预测未来的能力并且有记忆,都可以被称为世界模型。

王建明:我观察到创业公司层面,现在做世界模型创业的很多公司创始人都有自动驾驶背景,我想了解下自动驾驶的状态表征到底是个什么?

金鑫:可能主流的还是视频生成。因为牵扯到安全性问题,如果连视频模态 RGB 的 video 都给不出来,如何相信生出来的数据是有效的?自动驾驶主要还是视频的 ADAS,同时雷达、点云这些传统的数据也要有,所以这是我为什么要做 UniScene,因为生成的模态越多,信息量越大,我认为 multi model 的前景可能更好。

每家主机厂都在做自己的方案,因为对安全性的要求以及道路场景的复杂度不同,偏重也都不一样,例如特斯拉就是纯视觉方案,华为有激光雷达辅助。

王建明:世界模型解决具身智能相关问题,会不会距离太远?

金鑫:前两天 LeCun 公布了多模态 V-JEPA,他一直宣称自己的 latent space 就是世界模型的方案之一。如果要把世界模型打造出来,offline 先做好,再去驱动具身,这个目前似乎没有比较明确走通的技术方案,但像LeCun V-JEPA 直接通过 representation learning 方式先学到对应的预测能力,再去追问辅助,其实已经有不少工作,比如 VLA。

但是要说它走通了吗,把世界模型跟具身结合起来的方案已经有人在售卖了,但要说真正达到刚高老师说的那种通用智能似乎又没有,还需要时间验证。

王建明:现在一种说法是把世界模型跟 VLA 对立起来,你刚提到其实这两种可以结合。

金鑫:我们昨天上线了一篇研究《Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey》就是将两者结合起来。如何做我们梳理了两种方式,一种是先创建世界模型,再做 policy learning,要么同时做,不分先后。

王建明:两者结合解决的是不同层次的问题?

金鑫:解决的还是老问题,即原本 offline 数据集没办法通过 imitation learning 模仿学习拥有长程思维和未来预测的能力。

高飞:相当于 MPC 中的 P(预测)。很多人认为 MPC 中的模型就是机器人,可以把其他所有状态都放到 model 里,也会往前预测。

王建明:我可以理解MPC 可能是用一个方程来 predict,而世界模型其实是用一个生成式方法来 predict?

高飞:我认为 MPC 里面的 M 怎么来,其实是工程师跟科学家去做了抽象,而世界模型这种数据驱动就是用 AI 自己去探索。本质上如果我们用更多 AI,以后就可以不需要那么多科学家去抽象了。

王建明:那 predict 的下一个状态是什么样的?

金鑫:比如说一个长程任务,我要想象出来后面怎么做,就相当于把它抽象成一个一个 long horizon 问题,现在最难解决的就是长程任务,有了世界模型之后,长程任务的理解、预测能力就能很好地赋予后续的 different policy 去学习。

03

什么是无人机的空间智能?

王建明:王博士您主要做全身控制(Whole-Body Control, WBC),把视觉引入到 Whole-Body Control,在这个方向,您觉得大概到什么时间点可能会实现一个看上去还不错的通用控制器。

王靖博:如果说在仿真器里不做一些力矩的限制,要实现一个还不错的控制器不难,但会有精度的平衡,可能不太会像真的机械臂一样指哪打哪。

如果在真实世界里,要实现这件事一方面是算法的问题,一方面也看硬件,在上海 AI LAB 有非常多不同型号的人形机器人,相同的算法跑出来很多不同的结论,我觉得硬件能力的上限决定了什么时候能取得不错的成绩。

王建明:高老师您刚给我们展示了多机的集群,包括多无人机的协同,这是否有点像集群学习?

高飞:集群学习具体的定义我不太熟,但是我们会采用集中学习、分布计算的模式,学习、训练的时候在一起,work 的时候各做各的,但是大家都有一个共同的目标。

王建明:三位嘉宾共同探讨的另一个共同点可能还有空间智能,包括无人机的空间感知、VLR(Vision-Language Reconstruction)。空间智能的定义也很大,怎么理解无人机领域的空间智能呢?

高飞:我觉得空间智能的定义不是特别清晰。感知是 robotics 非常重要的一块,上一代 robotics 发展快的一个根源在于 SLAM(即时定位与地图构建)技术,现在很多做 SLAM 技术都转行做空间智能了。不是换了个概念,而是很多技术持续复用,可能现在用的更多的是 learning based 方法像 VGGT或者其他 grounding model,但大家的目的可能类似,都为了获得机器人对空间几何、 texture,以及各种信息的一种抽象和表征。

原来一些 SLAM 做不了的事情,可能需要 AI 技术进一步建模,之后进一步去做 learning,所以才有空间智能的概念。

王靖博:我感觉大家对 Semantic(语义)的关注变多了,Semantic不仅包括物体的类别,用途,交互的方式,还包括物体中 Semantic 的可能性变多了。

王建明:空间物体的关系,语义信息等等都还处于比较早期的状态。

金鑫:比如从第一排左边开始数第四个瓶子,类似于这种比较复杂的空间关系的描述对于机器人来讲就比较困难,尤其是对于做机器人大脑的公司来说很难实现。这种空间能力即所谓的空间智能对人来讲很简单,但是机器人还不成熟。

王建明:解决空间智能问题是缺数据吗?

金鑫:就像刚王老师说的,过去大家对这种 semantic 没那么敏感,也不会有这方面相应的解法跟数据。

高飞:我理解可能就像金老师说的,大脑公司面临的问题是因为大模型的数据来源于语言模态,本身其空间关系就很弱,所以大模型在空间关系上就会出现幻觉。但是传统的 SLAM 在这块很强,所以要构建专门的数据集把这些信息对齐。

王建明:现在具身智能很多基座,VLM 中的“Vision”基本上是 2D 的,多模态本身在 3D 模态还比较欠缺,所以现在反倒是那些做 SLAM 的公司会强调把 3D 模态补足,然后最终在看如何解决空间智能的问题。

金鑫:是的,所以我们做 driver VLA 就加了 visual COT 的思路,也是同样的道理,给了 depth 等更多信息。

04

具身智能创业,奔赴星辰大海还是脚踏实地?

王建明:接下来我们聊聊三位老师在落地上的期待吧,比如像高老师做无人机应用,您感觉在这个方向,未来我们现实生活中能看到什么类型的应用?

高飞:我认为拉长时间跨度,我们会在生活中看到各种各样的无人机,这是我一直以来的梦想。但是这个时间可能比较远,二十年后我们往向窗外,如果没有各种无人机在做高空作业,例如送货送人,那肯定是我们这帮学者、创业者和从业者的失败。

我觉得很多时候我们的技术已经 almost there了,再努努力就能突破,但要让它 work, 这一步总要有人去做,这其中有很多事情可以做,具体的落地过程肯定很痛苦,我们正经历这种痛苦。

王建明:无人机已经经历过一波应用潮,以大疆为主的硬件公司的迭代,到现在这个阶段更多要用无人机来解决一些现实问题,而不仅仅把它当作一个设备。

高飞:可能好落地的应用已经做完了,但好做的事情其实在整个空中作业的生态里不到 1%,比如现在大家熟知的航拍、农业植保机,更多的就不一定说得出来了。但是我们行业里仍有各种事情可以做,例如发生了火灾去高空灭火、高空清洗幕墙、无人机送货、载人观光,这些大家讲了很久,但还没有实现。

王建明:为什么还一直没实现?问题是什么?

高飞:在我看来肯定有很多卡点,最大的一个问题就是不够智能。或者说某个行业的无人机需要 rule- based,要写很多规则,就需要很多科学家、工程师夜以继日地用人力去抽象,这件事就很难,也很难算过来账。如果花了那么大代价开发物流无人机,最后还不如外卖小哥送得便宜,那么意义就不大。但是AI 的发展让我们看到了希望。

机器人也类似,现在很多人形机器人做的事情,其实工厂里一个工业流水化设备也能做,可能成本更低,但机器人给人的期待不是一个流水化设备,而是机器人成功了以后什么事情都能做,我认为天空端、地上、水下都有类似的逻辑。

王建明:所以还是 learning base 的控制范式的改变,也可以增加无人机的应用场景。

高飞:这个阶段用 AI 结合大模型,不仅控制、更多是决策,而决策是最难的问题,我认为我们可能看到了具备通用泛化解决问题能力的基座模型的希望。

王建明:金老师您怎么看待整个具身智能的落地应用?

金鑫:我自己也在宁波做一些产业化的事情,刚高老师讲到不希望再回到工业自动化的阶段。但现在反倒是工业自动化的需求非常着急,他们希望把机器人尽快用起来,这就是其中一个很大的 gap。高校老师创业,技术人员创业,尤其是这种新兴技术创业,他们脑海中的想法跟现实世界发展存在差距,你想做的是个飞机,可能工厂需要的就是一个自行车。

王建明:王博士,你主要做双足人形的控制,现在这块的硬件已经相对比较成熟了,那么离最终的应用落地您怎么看?

王靖博:今年机器人领域让大家看到了一些跟提高操作能力无关的事情,例如巡检、跳舞等等,大家貌似用一米四以下的机器人就能看起来不错了,但最终目的还是要让机器人去干活,在能干活这件事上,硬件的迭代我觉得还不太清楚,无论是人形机器人的负载能力、在高负载下的平衡性、运动的稳定性,还有灵巧手的方案,其实还有非常多的挑战。所以我觉得这个事情还有很远的路要走。

王建明:在中国创业面临一个很大的问题就是最终要去解决一个宏大的问题,但又不得不面临短期商业化的矛盾。相比较美国创业公司,前段时间我看到 Scale AI 最新一轮的估值是 140 亿美金,换成人民币就是近千亿的估值。那我们回头看国内的创业公司,不管是从融资规模还是估值规模上来说,你们认为最终通用机器人在中美两国的估值体系下会是什么样?一个像 Scale AI 可能就融了三轮而已,估值已经到 140 亿美金,投资人也没期待它能解决什么现实具体问题,另一方面中国创业公司在几亿人民币估值下,又要去奔赴星辰大海又要脚踏实地商业化,作为创业者的高老师您怎么看?

高飞:首先这个估值我肯定看不懂,只能说我无法理解。那从创业者切身体会,我既然在中国就走好中国路径。我认为接下来是关键的一代,每一代人都有每一代人的使命,最后谁能把事情做成最重要,而不是看谁估值更高。

金鑫:我也特别同意高老师刚刚的话。估值背后隐藏的东西太多,同时资本的力量太大了。可能背后的资本并不相信这件事一定能做成,只是说要把场子热起来。我觉得从中国角度来讲,从 DeepSeek 之后,中国的投资人对技术的耐心多了一些,大家能看到这代年轻人还是能做出来东西。

王靖博:整个行业或者说科研是一场马拉松,会有一轮又一轮的浪潮,现在可能为了炒热度,但下一轮真的浪潮来了之后,大家关心、讨论的问题也不一样了。对一家公司的评估体现着估值上可能会有新的改观。

05

观众提问环节:

合成还是真机数据更有效,

还是要看任务,不是真机数据就一定最合理

观众提问:既然大家谈到目前的技术路线还没有收敛,为什么还有这么多学者下场创业,他们创业的动机是什么?是因为学术界的资源不够来做这件事,还是纯粹想蹭这波资本的红利?

高飞:对于我来说,肯定不是为了蹭资本红利,没什么好蹭的。如果你创过业,就会知道这里面要承担多少压力,有多少痛苦要经历。那为什么还要创业呢,我觉得恰恰要在技术没有收敛的时候创业,不然等收敛了,机会恐怕就不再属于你了。对于我而言, 5 年前我肯定不会创业的,因为没有足够的变量可以帮助我把这件事情做成,而现在有这个机会,那就 have a try,and try my best,就是这样。

观众提问:有关机器人数据的问题,现在机器人数据数量相对较少,现有三种方法,一种方法是真机采集,但真机比较昂贵,而且机器人本体会迭代,如果想要通过真机回流数据的话,其实迭代了之后再应用也是个问题。第二种方式是通过仿真,但仿真存在 simulation gap,不过仿真会相对便宜。第三种方式是我最近听说是有用视频生成模型来生成更加大量的数据,就能弥补其中的误差,但是这种方式会比较耗算力。想问一下你们觉得以后的数据获取的方向会是哪一种?或者是怎样去结合?

金鑫:这个其实讨论过很多次,数据金字塔,最底下的就是互联网数据或者 video 的数据,这个量也最大,获取的成本也最低。但是可能只能支撑做一些 pretraining,就比如一些 foundation model,用这部分的 video 让它去学是没问题的。再往上就是合成数据合成出来的高质量数据,real 跟 SIM 之间的 gap 比较小,能够支撑做更多的任务,提高泛化性。最上面是真机的数据,遥操的数据。

但合成数据也分各种合成数据,分无效的一些合成数据,有价值的一些合成数据,对于物理真实更重要的一些合成数据,下面又细分了很多。对于 video 也是一样,对 video 到底是用人的 human video 去训它,还是说机器人的一些 video 去训它,还是说其他更加 in general 的 video 去训它?这个也不太一样。所以我觉得目前还在探索哪部分数据更有效的阶段。我听过一个比例是721,就是 70% 的 Web data video data, 20% 的 synthetic data,然后 10% 的真机数据,但是 who knows?

观众提问:现在直接用文生视频、图生视频这种视频生成模型直接生成机器人的数据,相似度其实能够达到 88%,但是会比较耗卡、耗算力,这种方式你们怎么看?银河通用他们是 99% 都用合成数据,就完全占合成数据那一派,所以想看一下你们的看法。

金鑫:耗卡这件事,有钱就可以做,主要还是看能不能生成有效的数据。但一定要合成出来的 video 才有效果吗,也不一定。现在的 latent space 的生成也是一种生成方案,又回到刚刚那个老问题,就是 word model for VLA 或者 word model for embody 那个 word model 输出来的东西一定是要 video 吗?也不一定。

观众提问:视频生成模型直接生成机器人的数据,会比仿真的更接近真实。

金鑫:仿真跟生成要分得这么开吗,可能仿真的就是原来 CAD 搓出来的 asset,就像群核智能,他们现在手里面有很多资产,也是他们自己最大的护城河,但是现在生成出来的内容可能也不见得会比那种手搓出来的要差。我觉得主要还是看你什么样的数据有效,或者说哪些是针对你要解决的那个任务有价值,这部分数据该怎么去表达?是用 video 吗?还是用其他的 modality,或者直接不用表达,直接就是一个抽象的 latent 就足够了,还是 case by case。

王靖博:我比较同意金老师的表达。哪部分数据最有效还是要看任务,不是真机数据就一定最合理。像我做足式控制,其中最基本的 locomotion,我可能都没有 positive examples,我是在一个纯仿真环境里,没有任何的实调数据一样可以把这件事做成,因为我的任务不需要那么多 contact reach 的东西。我只要能学到从各种各样摔倒的环境里面怎么让机器人恢复稳定就好,其实是纯依赖任务的一种形式。所以我觉得讨论这个事之前,其实更重要的是看你需要做什么任务,然后找那个任务最 scaling up 的一种方式去获得数据。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。