3月27日,在中关村论坛“全球对话”活动现场,由北京中关村学院与中关村人工智能研究院孵化的首家具身智能企业——深度机智,正式发布首个以人类学习范式构建的PhysBrain 1.0具身通用智能基座模型。
PhysBrain 1.0体系以PhysBrain基座模型为核心,融合TwinBrainVLA原创双脑架构与LangForce训练策略,三大核心技术协同发力,首次通过海量人类第一视角视频,规模化构建高质量物理常识训练语料,成功突破具身智能数据获取与模型训练的核心瓶颈,激发出模型的“类人”物理智能,推动模型从“模仿动作”向“理解物理”的关键“范式跃迁”。
在国际权威测评榜单中,PhysBrain 1.0在空间智能、具身交互等多项权威评测中超越多家头部公司,达到行业 SOTA(业界最优)成绩,全面对标全球顶尖水平。
推出人类学习全新模型架构,重构具身智能底层逻辑
此前,全球主流机器人技术路线本质是教机器人“怎么做”,通过大模型拟合真机或者仿真得到的轨迹数据,试图逼近通用具身智能。然而,如此训练的模型缺乏对真实物理世界理解,同一场景,换了不同视角后便极易识别失效,本质上只是为机器人注入了拟合轨迹的数据,而没有为其注入物理世界的真实交互逻辑,导致拟合轨迹的效率极低。本质上,模型只记住了动作,却没有学会为什么要这样做。
而深度机智给出了另一种思路,让机器人像人一样学习,先具备世界物理常识,再执行具体任务。简单来说就是“知其然,更要知其所以然。” 这种“先理解,后行动”的理念,让具身智能的发展拥有了非线性突破的可能。
深度机智此次推出的 PhysBrain1.0 具身通用智能大模型,实现了三个层面的核心突破:
1、数据来源创新:从“轨迹数据”到“人类第一视角交互数据”
深度机智率先以海量人类第一视角交互数据为核心训练语料,而非依赖昂贵的机器人闭环仿真数据、遥操作数据。通过首创的ICDC 情境数采体系,以佩戴式第一视角设备为主,无需在手部佩戴机械装备,在真实工作情境中采集原生第一视角多模态数据,让模型训练数据与人类真实操作逻辑、物理世界规律的对齐。
人类数据天然蕴含任务多样性、场景多样性与处理方式多样性,让模型从源头获得对物理交互的深层理解,而非局限于轨迹拟合,这正是后续泛化能力的根基。
2、数据使用创新:从“简单拟合轨迹”到“提取物理交互常识”
深度机智的数据增强管线,将海量人类第一视角视频中的空间关系、力学逻辑、因果推理等隐性经验,规模化提取为结构化监督信号,并压缩进多模态大模型。这一过程让PhysBrain1.0模型在训练中真正掌握“为什么这样做”的物理因果,而非“怎么做”的动作轨迹,从“模仿动作”走向“理解物理”,物理常识的注入,是模型具备通用智能的关键一步。
3、模型架构创新:从“记忆动作数据”到“学习世界规律”
PhysBrain 1.0采用多模态大模型架构,让具身智能不再像大语言模型一样推理“下一个token”,而是将物理常识内化于参数之中,让模型具备对物理世界理解的时空一致性,在有限数据下实现真正的泛化能力。
原创性TwinBrainVLA “双脑融合” 架构解决具身微调中存在的灾难性遗忘行业难题。左脑冻结,完整保留通用语义理解能力与语言智能;右脑可训练,专注学习精细动作策略。两者协同,让PhysBrain1.0模型在做任务时,真正实现“通专融合”。
独创LangForce训练方案,打破VLA学习中的视觉捷径困境。通过贝叶斯分解强制模型在生成动作前必须最大化动作与指令的互信息,让机器人真正“听懂指令”再行动,在保留大模型原有语言能力的同时,大幅提升从未见过场景下的泛化成功率。
通过上述三个维度的创新,PhysBrain1.0 第一次开始“像人一样思考,同时像人一样行动”。
在最新的 SimplerEnv 测试中,PhysBrain1.0跑出了 80.2% 的平均成功率,超越了行业标杆 Pi0.5 ( 57.1%),达到行业SOTA,这一结果进一步说明,在具身智能领域,物理常识要比动作模仿更加重要,具身智能必须先具备“物理常识”,才能更高效地学习动作。此外从行业角度而言,深度机智已跻身行业第一梯队,具备与国际大厂对标的产品技术实力。
不止于模型,打通“具身智能全链路”
本次中关村论坛活动,深度机智不仅带来全新模型,更首次展示基于人类学习技术路线的完整全栈能力。
基于全新范式具身通用智能大脑PhysBrain1.0,深度机智推出了全球首款断电自主站立的全尺寸拟人体机器人 Prime 。该机器人专为通用具身智能模型研发,全身谐波关节,搭配高自由度灵巧手,可实现高精度的精细操作,具备高度类人化的动作灵活性与环境适应性。
让机器人不止能实现“取咖啡”等简单工作,还应该进入“人类最需要的地方”,落地 “险、脏、累、 难、奇” 等场景,让机器人服务于人类的工作、生活现实场景,成为“真正能干活”的机器人。
此外,为持续完善物理智能数据引擎,深度机智推出了便携式数采智能终端,可实现在多元场景中低成本高效率地获取多模态人类第一视角数据,构建高质量训练数据闭环。
在数据标注方面,深度机智通过标准化人类行为数据,构建“物理世界知识库”,建立人类第一视角数据物理常识标准平台,为行业提供可复用的具身智能数据基础设施。
深度机智通过打通数据采集、常识标注、模型架构、训练算法、拟人本体等各个关键环节,构建了“机器人大脑全链路”,该公司也是我国少数具备全栈能力的具身智能公司。
具身智能的“中国时刻”,从“模仿动作”到“理解世界”
技术演进的本质,是认知范式的跃迁。从信息智能到物理智能,全球人工智能发展正在进入一个全新的阶段。
过去,美国在大模型领域建立了范式优势,欧洲定义了工业机器人体系,而或许现在,在具身智能这一新一代核心赛道上,中国企业,正凭借自主创新,正在实现从跟跑到并跑乃至领跑的跨越。
目前物理智能是大模型能力的一个重要板块,尚处于行业发展早期,中国团队有机会率先实现从0到1的突破。
其次,具身智能是实现物理智能的加速器,而中国在机器人硬件产业以及大模型上所积累的相对优势,为中国具身智能创业公司提供了快速成长的土壤。
此外,李飞飞、Yann LeCun、谢赛宁等都是具身智能领域的早期开拓者,而最近我们也慢慢看到,越来越多中国创业者、学者的名字和面孔出现在具身智能的关键领域和核心期刊上,这正说明在具身智能领域,中国创业者正在迎头赶上。
而以深度机智为代表的一批中国创新力量,正从“模仿动作”,走向“理解世界”。这不仅是一项颠覆性技术突破,更是一条通往物理世界AGI的新路径。
属于机器人的时代正在到来,而这一次,中国正走在前面。





京公网安备 11011402013531号