当前位置: 首页 » 资讯 » 科技头条 » 正文

能训练机器人动作和想象力,上海创智学院联手智元机器人发布全新具身世界模型

IP属地 中国·北京 文汇报 时间:2026-05-29 00:22:00



如今的机器人的能力每天都有进展,但在复杂的真实世界,离人们期待的“全能伙伴”还很远。如何让机器人自己学会任务迁移、变得更聪明?5月28日,上海创智学院与智元机器人具身研究中心联合发布自主研发的τ‑0WM具身世界模型,有望为机器人装上既能预演未来、又能精准执行的“通用大脑”。

同时训练机器人的“身体”与“想象力”

上海创智学院全职导师、智元机器人合伙人、首席科学家罗剑岚告诉记者,τ‑0WM是一个开源的具身世界模型,借助多种渠道的数据预训练,同步提升机器人的未来推演与动作生成能力。同时,以此为核心构建了融合动作预测、未来状态模拟与部署态动作优化的完整系统,最终跨多种具身本体与精细操作任务完成验证。简言之,让机器人既学会“怎么动”,又能提前“脑补”动作的结果。相当于同时训练了机器人的“身体”与“想象力”,再用这种想象力筛选出最优动作,最终部署到真实机器人身上。

研发团队说,当前机器人训练面临数据不足的困境。具体而言,真机数据动作虽准,但场景单一,换个环境就可能失灵;用简易手持夹爪采集的数据场景丰富,但操作方式和真实机器人差别大,直接拿来用动作对不上;网上虽有大量的人类操作视频画面,但缺少机器人所需的关节动作数据;而且开源机器人数据散落各处,格式标准不一。

可见,统一机器人的动作“语言”是行业目前最基础也最迫切的需求。而τ‑0WM就构建了一个让机器人“既能想象又能执行”的通用模型。首先,它通过“统一动作语言”,将不同来源的动作数据全部转换为相对末端6维位姿,就像把不同的方言翻译成普通话。在此基础上,τ‑0WM还训练了一个“动作条件世界模型”,即给定当前画面和一段动作方案,它就能生成执行动作后的未来画面,像一个内置的快速仿真器,从大量混合视频中学会模拟机器人与物体的交互。

同时,面对同一任务,τ‑0WM能让机器人“大脑”中推演多种完成方式,并快速模拟每种方案,选出未来画面最成功、最稳定的动作执行。就像下棋时先推演几步,再走最妙的一手。

只需极少次真人示范,就能快速迁移新任务

τ‑0WM实际部署的效果如何?罗剑岚透露,τ-0WM可以依据端侧算力、任务难度、推理速度等,调整候选轨迹数量和推演步数,以此来平衡执行效率和推理时间。经训练,模型展现出强大的落地与抗干扰能力。只需极少次数的真人示范,机器人就能快速迁移到全新的精细任务中。即便作业时物体被碰歪或出现意外干扰,它也能自行调整,表现出很强的鲁棒性。

以收纳羽毛球任务为例,机器人需要将多个散乱一地的羽毛球依次装入球桶,盖上盖子并压紧。未经过预训练的模型需要超过1000条高质量示范数据训练才能完成任务。而τ-0WM只需400条数据训练即可完成任务,并且当光照、背景画面、羽毛球位置发生变化都不会影响其精确度。

而且,τ-0 WM可以在多种不同构型的机器人上部署,并完成精细操作任务的能力。研发团队在3种不同构型的机器人上进行评测,在整理工具箱、装书包、安装水管和收纳羽毛球这4种精细操作任务上,τ-0WM成功率超过其他具身基准模型,这些任务均涉及精细夹取和力量控制,例如拉开书包拉链,将水管插入水龙头拧紧等。

“当下整个具身智能的技术路线尚未收敛,仍需要大胆探索。”罗剑岚说:“τ-0 不是终点,而是零号版本。我们希望从世界模型开始,逐步走向动作模型、闭环学习和更大规模的具身基础模型。随着τ版本号的增加,它既代表模型能力的提升,也代表我们对具身智能路线探索得越来越深入。”

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。