当前位置: 首页 » 资讯 » 科技头条 » 正文

圆桌丨从技术路线到产业链协同,具身智能下一步卡在哪?

IP属地 中国·北京 澎湃新闻 时间:2026-02-11 15:07:46

“过去大家在争论用哪个大模型来改,我们直接跳出这个问题——为什么要改?为什么不从第一行代码就为机器人而写?”

2月10日,在北京中关村展示中心举行的“具身原生”技术开放日上,原力灵机联合创始人兼CEO唐文斌表示,2026年不是具身智能的元年,而是具身原生的元年。

当天,原力灵机发布了三大核心成果:具身原生大模型DM0、具身原生开发框架Dexbotic 2.0以及具身应用量产工作流DFOL。

据介绍,DM0是从零开始训练、专为物理世界交互设计的大模型,融合多模态互联网数据与真实具身场景(如驾驶、操作、导航)的多传感信息,在2.4B参数量下实现了高智能密度。该模型还以768×768高分辨率输入和60ms实时推理延迟,在RoboChallenge真机评测中夺得单任务与多任务双项第一。同时,DM0全面开源,支持在消费级显卡上微调。


在“Physical AI Next”圆桌论坛上,唐文斌与来自学界以及企业的多位大拿展开深度对话,探讨具身智能的发展现状与未来路径。

面对“具身智能下一步卡在哪”的问题,北京智源人工智能研究院院长王仲远坦言,虽然硬件和模型进步迅速,但还远远没有到具身的ChatGPT时刻,离大规模应用仍有巨大gap。目前技术路线还尚未收敛,无论是VLM+控制、端到端VLA,还是世界模型,都处于探索阶段。他强调,行业需通过真实场景积累数据,形成闭环,再解决泛化问题。

清华大学教授汪玉从基础设施的角度表示,当前机器人任务仍局限在“工作台”。要完成收拾屋子这类长程跨模态任务,不仅需要模型的突破,也可能需要环境本身的协同,比如建筑是否应为机器人生活而设计。他同时指出,中国在产业链、供应链上具备优势,产学研联动也慢慢变多,有望比美国在具身层面有更快突破。

阶跃星辰CEO姜大昕表示,具身智能的“ChatGPT时刻”比语言模型更难定义,其泛化维度多元(场景、任务、目标),且视觉编码、3D空间推理等基础问题仍待突破。但ChatGPT时刻的标志性信号就是零样本泛化,“给它任何一条指令,即使以前没有见过,它也可以回答出问题”。

星海图CEO高继扬指出,具身智能产业链链条远长于大模型,涉及零部件、数据、算法等多个环节,其中,供应链和零部件其实很不成熟,渠道和终端跟大语言模型有所不同,算法反而是传播最快的,得益于开源社区,第一梯队公司的算法传播周期在2-3个月。“2026年是智能爆发,爆发的结果一定在某些应用领域形成应用的外溢,而且同时配合了供应链和整机。尤其是中国,显著比美国强得多,周期快5-10倍,成本只有五到十分之一,今年会是发生变化的一年。”

唐文斌则表示,他心中的ChatGPT时刻,是在限定场景中真正有用、可信赖、ROI可算,把玩具变成工具。他认为,“目前在仓库、工厂里打螺丝,可能闭环之后大众并不能感知到,也许DeepSeek时刻可能全民都能感受到这个产品来到我们的身边”,如何能够从工业物流走向商用、走向ToC(消费者端),这个时刻还要再晚一些,“今天我们对它的错误容忍度体验要求更多,我觉得也不会太远”。

当前,具身智能正站在迈向产业落地的关键拐点,然而跨越实验室到千行百业的鸿沟,仍需多重突破。机器人们何时能从视频里的“无所不能”走向现实中的“稳定可用”,2026年或许正是关键起点。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。