![]()
在AI界,有一种说法叫做“像素级焦虑”,即AI模型生成的画面越生动逼真,越容易掩盖其在物理逻辑上的混乱。
正如近期《Science》期刊上加州大学伯克利分校发表的一项重磅研究指出,当前主流AI图像生成器虽已修复畸形手指、乱码文字等低级漏洞,但在透视几何、光照阴影、镜面反射三大物理规则上,仍存在难以根除的缺陷,这也成为识破AI假图最可靠的突破口。
虽然对于普通用户的肉眼来说,这些缺陷无伤大雅,但在具身智能领域,一个能完美生成“机器人拿起杯子”视频的模型,如果无法理解杯子的材质、水的重量以及手部的力度,那么它的训练结果在真实世界中依然寸步难行。
近日,随着ICRA 2026(国际机器人与自动化大会)框架下的AGIBOT WORLD CHALLENGE线上初赛放榜,这一“焦虑”正在被转化为解决实际问题的动力。
在这场由智元机器人主办的重要赛事中,共有来自全球27个国家及地区的526支队伍报名。其中,331支顶尖战队在R2A推理执行赛道决出10强,WM世界模型赛道则有336支队伍角逐出线,中科院自动化所×高德联合团队、俄罗斯GreenVLA等分别斩获赛道冠军,十强队伍将于6月1日登上维也纳总决赛舞台。
这场覆盖全球多国家和地区的顶级赛事,不只是学术竞技,更折射出具身智能正从实验室Demo,走向可部署、可泛化、可量产的产业新阶段。
让机器人“会想、会算、会干活”
ICRA作为全球机器人领域权威盛会,每届吸引超5000名学者与产业人士参与,而本届大赛的核心价值,在于把行业最卡脖子的两大问题摆上擂台:仿真到现实的鸿沟(Sim2Real Gap)、世界模型落地难。
在R2A(Reasoning to Action)赛道中,比拼内容已经从单纯“动手操作”升级为“听懂—规划—执行”全链路考核,要求模型基于真实数据集,在开放、复杂环境中完成长程任务。
团队需用Genie Sim 3.0开源仿真平台训练,评测覆盖语言理解、空间认知、技能操作、扰动适应、零样本迁移五大能力,贴近真实部署场景。
![]()
331支队伍比拼后,最终俄罗斯GreenVLA夺冠,十强包括华南理工、火思动力、加州大学圣迭戈分校等产学研力量。
![]()
如果说R2A赛道考验的是机器人的“手脚”,那么World Model(世界模型)赛道考验的则是机器人的“大脑”与“想象力”。
赛事会评测模型能否根据机器人动作,精准预测视觉画面变化,重点考查“动作跟随、场景一致、物理可信”,而非单纯视频生成好看。
比赛采用全自动无人工评测,超百支队伍超越基线,竞争极为激烈。最终中科院自动化所+高德CV Lab联合团队NeoVerse-Abot夺冠,中科院工业AI所、中科大、重庆大学等团队跻身前列。
![]()
全自动评测流程
值得注意的是,以往人形机器人竞赛多侧重动作表演,而本届大赛用统一数据集、统一仿真平台、统一评测基准,建立可量化、可复现、贴近落地的技术标尺。
目前,智元已经向全球开放AGIBOT WORLD真机数据集与Genie Sim 3.0,让没有硬件、算力有限的高校与初创团队,也能参与顶级研发,大幅降低行业创新门槛。这种“以赛促研、以赛建标”的模式,正在推动行业告别“各说各好”,走向数据—仿真—模型—部署的标准化路径。
竞争转向“虚实融合”与“部署能力”
在业内专家看来,从本次的参赛结构与技术方向可以看出具身智能界的三大趋势:
全球参与度有了明显爆发,两大赛道合计近700支队伍,海外队伍占比近三成,说明中国具身智能开源生态与技术路线,已获得全球学术界与产业界认可。
其次,技术重心已从“炫技”转向“实用”。R2A赛道强调长程任务与泛化,WM赛道强调物理一致性与动作跟随,不再追求视觉效果,而是能不能稳定用在机器人上,直指“实验室好用、现场拉胯”的行业痛点。
此外,在十强名单中,高校、科研院所、初创公司同台竞技,学术研究与工程落地深度绑定,预示下一代机器人技术突破,将来自产学研融合的闭环创新。
随着线上赛收官,10支R2A队伍与WM优胜团队即将奔赴ICRA 2026维也纳总决赛现场,在真实机器人上验证最终效果。
这不仅仅是几支队伍的胜负,更是人类探索物理AI边界的一次集体尝试。在这个2026年的夏天,我们或许正在见证机器从“执行指令的工具”向“理解世界的伙伴”转变的萌芽。
采写:南都·湾财社记者 胡雯雯





京公网安备 11011402013531号