![]()
在人工智能的众多赛道中,具身智能(Embodied AI)正处于爆发的前夜。它被视为连接数字世界与物理世界的“最后一公里”,也是人类文明向前迈进的重要里程碑。
从清华大学的强化学习,到香港大学的机器人控制,再到如今在上海交通大学带领团队攻坚通用具身智能系统,他站在了计算机视觉(CV)、自然语言处理(NLP)和机器人学(Robotics)的十字路口。
几年前,这还是一个冷门、艰难的领域,没有标准数据集,没有 Benchmark(基准测试),甚至被视为一个费力不讨好的领域。如今,随着大模型技术的溢出,具身智能迎来了日新月异的变革。穆尧也在这个时候成为了上海交通大学的一名年轻的助理教授。他的主页上写着一句话:“Shape the intelligence and spirit the machine”(为智慧塑形,为机器注灵)。他相信,真正的创新往往来自那些不设限的年轻人,来自那些敢于在未知中寻找“北极星”的时刻。
在这次对话中,我们试图还原一位青年学者眼中的具身智能全景图。从微观的技术路线选择,到宏观的中外产业对比,再到对年轻一代科研者的期许。
以下是对话全文。
图 | 穆尧课题组(受访者提供)
![]()
这是一个得天独厚的交汇点
DeepTech:回看你的经历,从清华到港大,再到如今的上交大,你似乎很早就锁定了具身智能这个方向。当初是如何在众多 AI 领域中选中这条路并长期投入的?
穆尧:我认为具身智能对我来说是一个特别合适的领域:它其实是 CV、NLP 和 Robotics 的一个完美交汇点,这与我的经历和知识储备非常吻合。我的本科背景涵盖了跟机器人硬件相关的知识,博士期间在香港大学罗平老师门下,又接触了比较高端的视觉算法。而具身智能为了理解人类意图,还会融入 NLP(自然语言处理)的部分。尽管在 2021 年、2022 年这还是一个比较冷门的方向。当时更火的是纯 CV 和 NLP,具身智能连标准的数据集和 Benchmark 都没有。那是一段比较艰难的时期,我们只能一点点去打地基,自己造数据集,自己造 Benchmark,自己去探索方法。
DeepTech:在它还不是风口的时候,你有动摇过吗?有没有想过换个更容易出成果的方向?
穆尧:我是比较坚定的。当然,很多同辈的同学会迷茫、会有困惑,我也经常给他们做疏导。具身这条路确实难。它发文章的难度比正常做视觉要大很多,因为你需要在物理世界里做各种硬件的调整,真机实验可能就得比别人多做半个月。
但我认为它的 ROI(投资回报率)是非常高的。因为这是一个蓝海领域,你做的工作其实更具影响力。这是人工智能真正走进物理世界、与物理世界交互、进而改变物理世界的最后一个里程碑式的进程。当它被攻克时,整个人类文明、社会结构都会被重构。这是一个非常伟大的事业,所以我自己义无反顾。
DeepTech:你在主页上写着一句话:“Shape the intelligence and spirit the machine”。这背后蕴含着怎样的研究理念?
穆尧:这两句话是对我对具身智能核心的解释。
前半句“为智慧塑形”(Shape the intelligence)指的是我们希望从物理交互的层面给大模型一个身体。现在如 ChatGPT 一样的大语言模型在虚拟世界中非常发达,但它们欠缺一个物理的身体。它可以帮你写一封邮件,但不可能给你端来一杯水。我们希望教会它如何控制身体,如何拧开瓶盖,如何施力。
后半句“为机器注灵”(Spirit the machine),则是具身智能与传统机器人的区别。传统机器人面向单一场景、单一任务,追求百分之百的精准。而具身智能是大模型赋予了机器人“灵魂”,让它能理解人类的意图,甚至观察人类的状态。比如觉得你疲惫了,主动为你做些什么。
简单来说,前面是相对于互联网 AI,后面是相对于传统机器人。具身智能正好是那个完美的交叉点,拥有强大的泛化性、与人沟通的能力,以及一个能走进物理世界的身体。
VLA 已进决赛圈,核心战役在数据
DeepTech:你在多篇论文中涉及将 Diffusion Model(扩散模型)应用于机器人规划。为什么选择这条技术路线?
穆尧:Diffusion Model是一个非常强大的生成器。既然它能生成复杂的视频,生成机器人轨迹自然不在话下。
更重要的是,具身数据源于人类示教,而人类行为具有极高的多样性。因此,在同样观测下,动作分布会有多个峰值,Diffusion Model 在拟合这种多峰分布上表现极佳。此外,它逐步去噪的过程,允许对整条轨迹进行迭代式优化,“这修修,那补补”,这成为了目前学术界对 Action 建模的主流方式。
DeepTech:现在大家经常讨论具身智能的“不可能三角”——通用性、性能和自主性很难兼得。在你的工作中,如何平衡泛化能力和精确性?
穆尧:我觉得随着技术的演进,“不可能三角”正在被逐渐淡化和模糊。比如最新的 Pi0 等成果,泛化性很好,效果也很好。之前之所以存在“不可能三角”,本质是因为数据不够。这就像之前的 NLP 模型,针对单一对话做得好,但通用不行。现在 ChatGPT 证明了,只要 Scale up(规模化)上来,这些问题都能解决。目前像国外的谷歌 Generalist. AI 等和国内各大数采场都在快速积累数据,大家也逐渐意识到收集多样化数据的重要性,随着真机数据、人类数据、仿真数据的不断“力大砖飞”,“不可能三角”会被不断稀释
DeepTech:既然提到 Scale up,你认为在具身智能中,数据、模型、算力的 Scaling 优先级是怎样的?
穆尧:优先级最高的绝对是数据。
其实数据的 Scaling 一直做得不够好。数据分为四个维度:场景、物体、任务、行为。目前场景和物体的多样性,通过仿真合成数据已经做得相对较好。但任务多样性很欠缺,不管是真机还是仿真,大多是一帮人拍脑袋定的任务清单,跟人类日常生活的丰富度有巨大鸿沟。
最难的是人类行为的多样性。即使是真机遥操作采集数据,操作员为了赚快钱,往往倾向于用最快、最单一的方式完成任务。随着疲劳,他们的行为会越来越单一。而模型训练恰恰需要多样化的行为数据。相对而言,模型结构的 Scaling 已经很成熟了,改改结构涨一两个点意义不大,核心还是数据的 Scaling。
DeepTech:面对数据难题,你们团队目前具体在推行什么样的技术方案?
穆尧:我们正在推进一套“人-数字人-机器人”三元融合驱动的数据和模型Scaling up 方案。核心还是以人为本。我们不能只靠死板的仿真,而是要先学一个人类的 Foundation Model,把它作为先验嵌入到我们仿真合成数据的管线中,把人的行为多样性迁移过去。
具体而言,整个流程是:第一步,直接从海量的人类视频数据中进行大规模预训练,解决数据量的问题;第二步,利用我们构建的管线生成高质量的机器人仿真数据,将人类的行为域迁移到机器人上,进行第二阶段的预训练;第三步,再加入机器人的真机数据进行微调。这可能是目前解决数据瓶颈最有效的路径。
DeepTech:除了数据,Benchmark(基准测试)也是行业痛点。你认为目前的测评体系存在什么问题?
穆尧:目前缺乏统一的 Benchmark,大家各做各的,没有一个能让所有人信服。
比如常用的 LIEBRO,大部分算法都能刷到 90 多分的成功率,再涨一两个点没什么意义,而且它用的机器人型号在中国都不卖。再比如 RoboTwin,它主打泛化性,对不同场景,不同桌面的杂乱度,目标物体的形状、初始位姿等的泛化性能要求较高,但没有和真实的物理场景做完美的对齐。还有一个最大的问题是真机评测的不可复现性。所有人的真机实验都是自己设计任务、自己搭场景、用自己的机器人,资产也不一样。
DeepTech:这有解法吗?
穆尧:我觉得未来的评价体系应该分三部分:第一,建立一套与真机完全孪生的仿真测试,保证极高的可信度;第二,像 RoboTwin 一样测策略在广泛场景下的泛化性;第三,也是目前最糟糕的,真机评测。
我们团队正在做这件事,推动真机评测的标准化。我们提供标准的硬件清单、场景布置参数,甚至每一个资产的淘宝链接,让大家能购买相应的资产,搭建出一模一样的平台。
国内有得天独厚的优势,也有不敢冒险的差距
DeepTech:毕业后你选择了进入高校,而不是去业界一线的研发团队。这个选择的缘由是什么?
穆尧:进入产业界,总是容易“受制于人”。企业的安全阈值比较低,它一定要做短期内有收益的事情。但具身智能目前还不是一个特别成熟的产业,它需要我们有更冒险的想法、更年轻的思路。而学术界则相对自由,而且上交大提供了非常好的平台。在高校,我们是连接各个企业的桥梁,而如果加入某一家企业,可能就很难与其他企业深度合作了。
DeepTech:对比 Stanford 或 MIT等顶尖实验室,你认为国内在具身智能赛道上有哪些优势和差距?
穆尧:国内最核心的优势是硬件本体。我们的机器人产业太发达了,实验室机器人坏了,厂家第二天就能来修好,这在国外是不可想象的,他们可能得漂洋过海去返修。
差距方面,总体没有质的技术代差。但国外在冒险精神上确实走在前面。比如 UMI 方案收集了 27 万小时数据,我们很震惊这是怎么做到的,这需要非常大的 Infrastructure 和资本投入。国内在这方面往往是“不见兔子不撒鹰”,看到别人路跑通了再去 Follow。这很大程度上是因为我们不敢冒险。
DeepTech:在你的观察中,具身智能是初创公司更有机会,还是会被大厂主导?
穆尧:目前来看,除了 Google、Meta 这种巨头,国内大部分最前沿的技术发布、开源贡献,其实都是由初创公司完成的。无论是算法、数据集还是硬件,初创公司展现出了更强的活力。
DeepTech:你对未来 5 到 10 年的技术演进有什么判断?
穆尧:商业闭环会先在 B 端实现。我看到一些公司的方案在工业端已经具备了 80% 的落地能力,比如物流场景、叠衣服场景。
特别是一些具体场景,比如商超零售,或者家庭中“扫地机器人+机械臂”的组合,去处理吸尘器处理不了的纸团、脏袜子。这些在 1-2 年内会很快落地。但如果你说“通用具身智能”,像保姆一样什么都能干,那可能还需要 5 到 10 年。
不要被单一的投稿周期束缚
DeepTech:你今年的科研产出非常高效。能否分享一下你的科研时间管理经验?
穆尧:我认为文章产出是整个团队的努力。不过关于管理,我觉得第一点是不要只盯着自己的“一亩三分地”。要时刻关注 CV、NLP 领域最前沿的技术。比如 Meta 发布的 SAM 3D,直接颠覆了我们之前仿真合成数据的管线。如果不看那个圈子,你还在用传统方法死磕,效率就很低。
第二,不要以文章投稿周期来管理时间,而应该采用项目管理的方式。我们不应该只盯着投稿,而是要规划这个工作什么时候开源、什么时候宣传、什么时候修复 Bug。这会给之前的布局带来更大的紧迫感,也能倒逼时间管理。
DeepTech:作为导师,你在带学生和团队管理上有什么心得?
穆尧:我最看重学生的主人翁意识。我告诉学生,这个课题分给你,你就是第一负责人,甚至不需要跟我汇报就可以做决策。通过一两个项目的历练,他们会形成很强的责任心。我只需要在最开始的构想阶段,以及他们遇到真正解决不了的困难时,帮他们捋顺关键节点。
DeepTech:你的实验室招生说明中提到“人工智能是年轻人的事业”。为什么这么强调“年轻”这个特质?
穆尧:这和我在回答中美差距时提到过,资深的人往往安全阈值过高,不愿意去尝试那些“不一定带来巨大增益”的想法——之前有一些学生提出的我觉得“不靠谱”的想法,最初本想毙掉,但后来想想,实验室刚建,让他们试试错也没关系。结果反而是一些我没太看好的项目,做出了很好的效果。这给了我很大的改观。
我也参加了深圳的具身智能机器人大会,给我的感觉是“天下英雄,如过江之鲫”。新一代博士生蓬勃的生命力和最新想法都非常好。所以,雷军的那句话说得特别好:“不要听别人这个建议、那个建议,敢想敢干就完了。” 现在,我也在努力改变自己。
DeepTech:如果给行业里的年轻研究者一个建议,你会说什么?
穆尧:首先要找到自己心目中的“北极星”——那个你愿意投入巨大精力去做的目标。
找到北极星之后,就坚定的往前走。不要因为别人发了一篇 Blog 说仿真数据不如真机数据,你就犹豫仿真的意义;也不要因为别人发了 Simulation 的大工作,你做真机数据的就动摇。只要你的北极星不是特别离谱,在解决问题的过程中,一定能形成一系列成果。
从工具到伙伴
DeepTech:现在资本市场对具身智能的态度,你觉得是过热还是合理?
穆尧:有一段时间确实过热,但现在的资本已经很理性了。有些投资人对行业的理解甚至比我还深刻(笑)。
大家觉得过热,往往是因为宣传上的过热。但我们看到,仅仅从 2024 年到 2025 年,技术就发生了翻天覆地的变化。24 年初,很多机器人走路都不利索,我们还无法想象机器人能够叠衣服,能够端到端 24 小时连轴转,但现在正在被逐渐攻克。技术的演进非常快,所以资本多一些投入是合理的,只是行业里确实存在借噱头过度营销的现象。
DeepTech:最后,请描述一下你心中理想的具身智能系统,它是什么状态?
穆尧:最理想的状态,是成为人类的“伙伴”。
它不仅是有应用价值的工具,比如在养老场景中发挥作用;更会在社会心理学层面带来改变。随着具身智能的急速发展,社会结构会发生快速变化。终极形态下,机器人将成为我们非常好的朋友。
结语
具身智能从“冷门赛道”到“风口前夜”,其发展轨迹印证了技术演进的非线性特征。数据瓶颈、评测标准的缺失、真机实验的高成本,这些问题至今悬而未决,但资本与人才的涌入正在加速寻找答案的进程。
至于这场“为机器注灵”的冒险最终将通向何处,答案仍在时间的另一端。





京公网安备 11011402013531号