![]()
这项由北京中关村学院与中关村人工智能研究院(DeepCybo)联合开展的研究,以技术报告形式发布于2026年5月14日,论文编号为arXiv:2605.15298v1,归属计算机科学机器人学方向。有兴趣深入了解的读者可通过该编号在arXiv平台查阅完整论文。
研究的核心名称叫做PhysBrain 1.0,翻译过来大致是"物理大脑第一版"。在机器人领域,眼下最热门的一个方向叫做"视觉-语言-行动模型",简单说就是让机器人既能看懂画面、理解指令,又能做出相应的动作。过去大多数研究团队的做法是:大量收集机器人操作数据,让机器人一遍遍模仿人类的动作,慢慢学会怎么拿东西、怎么搬东西。这条路走了好几年,也取得了不小的进步,但它有个根本性的局限——机器人学到的往往只是"这个动作序列长什么样",而不是"为什么要这样做"。
研究团队把这个问题比喻得很直白:仅仅靠模仿动作,就好比让一个从来没进过厨房的人,通过反复观看别人切菜的录像来学炒菜。他能学会切菜这个动作,但他不懂食材的软硬、刀的锋利程度、食物受热会怎么变化——一旦换了一种食材,他就不知所措了。PhysBrain 1.0的出发点就是:与其让机器人死记硬背动作,不如先让它真正理解物理世界的规律,理解物体的材质、空间位置、受力变化,理解什么时候该轻拿、什么时候该用力推,然后再用少量的机器人操作数据教它把这份理解转化为具体动作。
这篇报告围绕两个紧密相连的核心问题展开:第一,如何把海量的人类第一视角视频系统性地转化为可用于训练的物理常识数据;第二,这种数据训练出来的物理先验知识,能不能有效地迁移到机器人控制任务中去。
一、为什么偏偏看人类拍的第一视角视频
机器人学习的数据从哪里来,这个问题比听起来要复杂得多。以往的主流做法是靠人类远程遥控机器人来收集数据,每录一段机器人操作视频都要耗费大量人力和时间,而且录制场景往往局限在特定实验室环境里,换个地方、换个物体,数据就不够用了。这种方式成本高、覆盖面窄,严重制约了机器人学到"广泛通用的物理理解"。
研究团队把目光转向了另一类现成的宝藏:人类日常生活中拍摄的第一视角视频。这类视频数量庞大,内容覆盖了厨房里切菜、工厂里组装零件、办公室里整理文件等各种真实的人与物理世界互动的场景。更重要的是,这些视频天然包含了大量关于物理世界的隐性知识——手指是怎么感知物体重量而调整握力的、物体滑动前会有什么微妙的视觉变化、如何判断一个容器是否装满了水。这些都是机器人真正需要学会的东西,只是埋在视频里还没被提取出来。
当然,原始视频本身并不能直接当成训练数据。一段普通的生活视频不会自己告诉机器人"这个茄子的表面光滑,需要用侧面夹持而非正面捏夹"。要从视频中提炼出有用的物理知识,需要一套专门的工具链,也就是研究团队花了大力气构建的数据引擎。
二、数据引擎:把视频"翻译"成机器能用的物理知识
PhysBrain 1.0的数据引擎可以用一个比喻来理解:它像一位经验丰富的厨师把一道复杂菜肴拆解成食谱的过程。厨师看一眼成品就能知道里面放了什么料、火候怎么掌握、步骤顺序如何,然后把这些隐性知识整理成任何人都能看懂的菜谱。数据引擎做的,就是把视频里隐藏的物理知识整理成机器能直接学习的结构化信息。
整个数据引擎分三大步骤,环环相扣。
第一步叫做结构化场景元信息提取。团队从Ego4D、BuildAI、EgoDex、EPIC-Kitchens等多个知名的人类第一视角视频数据集中筛选出高质量的视频片段,筛选标准包括画面清晰度和摄像头晃动幅度,太模糊或晃动太厉害的片段直接剔除。对于通过筛选的每个视频片段,系统会提取一份结构化的描述记录,这份记录分为三大块:一是场景元素,记录画面里有哪些物体、这些物体的材质和物理状态是什么——比如是刚性的还是可以变形的、是透明的还是不透明的、是满的还是空的;二是空间动态,记录场景开始时物体是怎么排列的,随着动作进行空间关系怎么变化——比如手是从上方靠近物体还是从侧面伸过来、物体被移动前后和支撑面的相对位置如何改变;三是动作执行,包含一个简短的任务目标描述和一个详细的执行过程描述,后者特别强调运动轨迹、接触时的力度变化和速度节奏。这三块加在一起,就构成了一段视频的"物理解读档案"。
为了保证这份档案的质量,团队使用了一个由多个顶尖大模型组成的注释员池,包括GPT-5、Gemini 3.1 Pro、Gemini 3 Pro、Qwen3-VL-235B-A22B和Qwen3.5-397B-A17B。让多个模型交叉验证,可以降低任何一个模型的偏见或遗漏对最终数据的影响。
第二步叫做深度感知空间增强。仅有物体的文字描述还不够,真实的物理操作需要理解三维空间关系——这个杯子比那个盘子离我更近,那个按钮大概在我前方四十厘米的位置。团队引入了深度估计工具(具体使用的是Depth Anything v3中的DA3NESTED-GIANT-LARGE-1.1模型),对视频第一帧进行深度计算,为每个被标注的物体记录其相对深度和近似的绝对距离(单位精确到厘米)。有了这层信息,后续的问答数据就可以包含真正有用的空间感知内容,比如"面前的切菜板距离你大约多少厘米"、"洗碗盆和木砧板哪个更靠近你"。这对于机器人规划末端执行器的运动轨迹至关重要,因为机器人的动作往往需要精确的位置和距离信息作为依据。
第三步叫做问答数据生成。有了结构化的场景元信息和深度空间信息,数据引擎会把这些信息渲染成大量自然语言的问答对,作为最终训练视觉-语言模型的监督数据。这一步同样动用了一个多模型池,包括GPT-5、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Pro、Qwen3-VL-30B-A3B、Qwen3-VL-235B-A22B、Qwen3.5-35B-A3B和Qwen3.5-397B-A17B,不同模型倾向于用不同的方式问问题、强调不同的物理细节,这样训练出的模型就不会只会应对某一种固定表达方式的提问。
这些问答数据覆盖了二十多个能力方向,大致可以分为几类。空间感知类包括左右上下前后的位置关系、相对深度、绝对距离、物体真实大小估算、视觉定位和视角一致性推理。具身推理类包括预测下一步动作、路径规划、物体的可操作性和安全性判断、多步任务分解、物体状态变化预测。时序理解类包括动作识别与计数、事件发生顺序、动作在时间轴上的定位、因果推理和反事实推理(即"如果换一种做法会怎样")。通用多模态保留类包括场景文字识别、图表分析、科学知识问答、视觉逻辑推理等,这部分数据的目的是防止模型在强化物理理解的过程中"忘记"原有的通用能力。
特别值得一提的是,对于涉及物理操作、规划和可行性判断的问题,模型的标准答案格式被设计成了一个固定的思考链条:先感知环境(周围有什么)→ 再识别物体(操作对象是什么状态)→ 然后规划空间关系(需要怎样的位置变化)→ 最后描述执行动作(具体怎么做)。这个链条的设计理念是让模型养成"想清楚再动手"的习惯,而不是看到场景就直接给出动作,跳过中间的物理推理过程。
整个数据引擎还内置了分阶段的质量控制机制。每个处理阶段都会输出带有状态标记的中间档案,如果某个视频片段的结构化信息无法解析成合法的JSON格式、深度文件缺失或损坏、物体定位信息不完整,系统就会为该样本标注失败状态而不是静默地让错误传播到下一阶段。这种设计让整个流程更像一个有质检工序的生产线,而不是一个把原料直接倒进去就能出成品的黑盒子。
三、模型架构:先打好底子,再学开机器
数据引擎解决了"用什么数据训练"的问题,接下来就是"怎么训练"的问题。PhysBrain 1.0的训练分两大阶段,两个阶段之间有明确的分工边界。
第一阶段叫做物理信息增强的基础视觉-语言模型训练。研究团队以Qwen3-VL作为起点,用数据引擎生成的大规模问答数据对它进行训练,训练出两个规模的模型:PhysBrain 4B(约四十亿参数)和PhysBrain 8B(约八十亿参数)。这个阶段完全没有任何机器人操作数据参与,纯粹是在教模型理解物理世界。训练结束后,这个基础模型应该能准确判断物体的空间关系、推测操作后的状态变化、理解一个动作在物理上是否可行,同时还能保留文字识别、图表理解、科学常识等通用能力。
第二阶段叫做能力保留式的具身适应训练,也就是把已经具备物理理解能力的基础模型改造成能直接控制机器人的策略模型。这个阶段才引入机器人操作的轨迹数据。
然而这里存在一个经典难题:当你用机器人数据微调一个大模型时,模型很容易在学会机器人控制技能的同时把之前辛苦学来的视觉理解和语言能力"忘掉",这在机器学习领域叫做"灾难性遗忘"。就好比一个多才多艺的人去培训班专门学了几个月厨艺,出来之后做菜水平提高了,但之前会的绘画、下棋全都生疏了。
为了解决这个问题,研究团队设计了一套双通道架构。整个模型被分成两条并行的数据处理通道:一条叫做通用通道,初始化自上一阶段训练好的物理信息基础模型,在机器人适应训练阶段完全冻结,不接受任何参数更新,专门负责处理视觉观察和语言指令,为整个系统提供稳定的语义参考;另一条叫做具身通道,同样初始化自基础模型,但在训练阶段保持可训练状态,专门负责学习如何根据任务上下文预测动作。
两条通道之间的信息传递方式颇为巧妙:具身通道在每一层处理时,会把通用通道对应层的输出拼接进来作为额外的参考信息,但用了一个"停止梯度"操作,确保具身通道的训练信号不会反向传播到通用通道改变它的参数。这就像让一位经验丰富的老厨师(通用通道)全程旁观指导,新学徒(具身通道)可以随时参考老厨师的判断,但老厨师自己的技艺不会因为新学徒的练习而受到任何影响。
还有一个更精妙的设计用来解决另一个隐患:在机器人数据集里,同一种场景往往只对应少数几种指令(比如"把苹果放进篮子里"这条指令,在训练数据里几乎总是对应同一个场景布局),这会让模型学会一种偷懒的捷径——光看画面就猜指令,根本不认真读语言指令。这样的模型在换了一个稍微不同的表述方式或者稍微不同的场景组合时就会失败。
研究团队给这个设计取名为动作条件语言对齐。具体做法是在训练时同时维持两种输入序列:一种是"先视觉后指令"顺序,也就是动作查询标记只能看到视觉信息而看不到语言指令,相当于让模型在不知道指令的情况下预测动作,这被称为先验分支;另一种是"先视觉、再指令、后动作查询"顺序,动作查询标记能同时看到视觉和语言信息,被称为后验分支。通过比较两种分支下动作表示的差异,系统用一个类似对数似然比的目标函数来"奖励"模型在后验分支中确实利用了语言指令的情况,从而强迫模型认真对待语言输入而不是偷懒走视觉捷径。
动作的生成方式采用了流匹配扩散解码器。简单说,模型学会的是如何把一团随机噪声"雕刻"成正确的机器人动作序列,预测的是末端执行器在三维空间中的位移和旋转变化。这和数据引擎里引入度量深度监督的动机一脉相承——理解了物体在真实空间中的绝对距离,才能更好地预测末端执行器需要移动多少距离才能接触到目标物体。
四、实验结果:在理解力和动手力两条赛道上同时拿了好成绩
研究团队在两大类任务上对PhysBrain 1.0进行了评测。
先看视觉-语言模型的理解能力。在七个标准测评基准上,PhysBrain 8B与同等规模的基础模型Qwen3-VL-8B相比,在所有测评方向上都有提升。具体来说,ERQA(专门测试具身推理和物理理解能力的基准)从43.0分提升到45.5分,提升约2.5分;PhysBench(物理世界理解基准)从48.5分提升到50.2分;MME(综合多模态评测)从2373.3分提升到2431.1分;MMMU(多学科多模态推理基准)从53.2分提升到55.2分;OCRBench(文字识别基准)从84.4分提升到85.7分;TextVQA(文字视觉问答)从82.1分提升到83.3分;RealWorldQA(真实世界空间理解)的4B版本从70.5分提升到72.7分。值得注意的是,不只是物理推理能力提升了,那些与物理操作关系不大的通用能力(文字识别、图表理解等)也没有下降,这正是数据引擎里混入通用多模态保留数据的功劳。
再看机器人控制能力,团队在四个主要基准上进行了评测。
在SimplerEnv-WidowX基准上,这个测试场景是用BridgeV2的真实机器人操作数据训练,然后在模拟器里测试四个从未见过的任务:把汤匙放到毛巾上、把胡萝卜放到盘子里、把绿色积木叠在黄色积木上、把茄子放入黄色篮子。PhysBrain 1.0平均成功率达到80.2%,超过了此前最强的Xiaomi-Robotics-0(79.2%),也大幅领先π0.5(57.1%)和Isaac-GR00T-N1.6-Bridge(57.1%)。四个具体任务中,放汤匙和放胡萝卜并列第一,放茄子更是达到了100%的完美成功率,只有积木堆叠任务(59.4%)略低于Xiaomi-Robotics-0的75%,但总体仍然拿下了榜首。
在SimplerEnv-GoogleRobot基准上,使用另一种机器人(谷歌机器人)进行拿起可乐罐、移动到附近位置、打开关闭抽屉三个任务的测试,PhysBrain 1.0平均成功率91.33%,比第二名Xiaomi-Robotics-0的89.03%高出约2.3个百分点,拿起可乐罐任务更是达到了100%的成功率。
在RoboCasa-GR1基准上,这是一个更复杂的挑战:使用GR1人形机器人的两只灵巧手进行24种桌面拾取放置任务,训练数据是NVIDIA发布的24000条遥控操作仿真示范。PhysBrain 1.0平均成功率64.5%,比第二名VP-VLA的53.8%高出约10.7个百分点,差距相当显著。具体任务中,把瓶子放入橱柜(76%)、把罐子放入抽屉(78%)、把茄子放入黄色篮子(98%)等多项任务都取得了相当出色的成绩。
在LIBERO基准上,这是使用Franka机械臂进行语言条件操作的标准测试,分为空间(L-Spatial)、物体(L-Object)、目标(L-Goal)和长时序(L-Long)四个子任务套件。这个基准上近期多个优秀模型的成绩已经非常接近满分,PhysBrain 1.0以98.8%的平均成功率略微超过此前最佳的Xiaomi-Robotics-0(98.7%),在L-Spatial达到99.6%、L-Goal达到99.4%。这表明PhysBrain 1.0在争夺出域泛化能力的同时,没有在这类标准化近域测试上退步。
五、真实机器人测试:不只是数字,还有真实的菜篮子
仿真测试成绩好固然令人欣慰,但研究团队清楚,最终能不能在真实物理世界里好好用才是关键。于是他们搭建了一套真实机器人实验台,用一台Franka Research 3机械臂配合Robotiq 2F-85平行夹爪,专门挑战一类在现实中让机器人很头疼的任务:蔬菜抓取。
为什么选蔬菜?因为蔬菜类别多、形状各异,茄子表面光滑、胡萝卜形状不规则、番茄容易被捏碎、大白菜和罗马生菜可以变形——这些特征对机器人的物理感知和抓取策略提出了很高要求,是一个很好的压力测试场景。实验台配备了两个Intel RealSense D435i摄像头,一个俯视整个工作台,另一个装在机械臂腕部提供近距离观察视角。
团队为九类蔬菜(大白菜、胡萝卜、黄瓜、茄子、洋葱、土豆、南瓜、番茄、罗马生菜)各收集了50条人工遥控的示范轨迹,共450条,记录在LeRobot 3.0数据格式中。然后用这些数据对PhysBrain 1.0进行适配训练,同样冻结通用通道、微调具身通道,最终得到一个单一的跨物品策略模型(不是为每种蔬菜分别训练专属模型)。
对比基线是π0.5,一个预训练于大量机器人示范数据的强力视觉-语言-行动模型。两个模型都在完全相同的Franka示范数据上进行了适配训练,差别只在于预训练阶段的物理先验来源不同,这样的对比设计能干净地体现PhysBrain 1.0从人类第一视角视频中获得的物理理解力是否真的有用。
结果是PhysBrain 1.0在所有九个蔬菜类别上均优于π0.5。九个类别的平均成功率从π0.5的47.1%提升到PhysBrain 1.0的63.3%,绝对提升超过16个百分点。提升最显著的是茄子(从70%提升到98%)、胡萝卜(从74%提升到90%)和大白菜(从62%提升到84%)。相对较难的洋葱(38%)和土豆(28%)也各有提升,只是绝对成功率还不算高,体现出这类形状特殊或缺乏明显抓取点的物体对任何模型来说都仍然具有挑战性。
团队还额外测试了两个长时序语义任务:给出"把所有绿色蔬菜放进棕色篮子里"的指令,模型需要识别出大白菜、黄瓜和罗马生菜是绿色蔬菜,然后依次抓取放置;给出"把所有橙色蔬菜放进篮子里"的指令,模型需要识别出南瓜和胡萝卜。这两个任务要求模型把语言理解、物体识别、多步规划整合在一起。π0.5在两个任务上的总成功率是31%,PhysBrain 1.0则提升到45%,平均提升14个百分点。
六、局限与展望:成绩背后的坦诚
研究团队在论文中对这项工作的局限性保持了坦诚。数据引擎的质量受制于上游感知工具的准确性,结构化元信息提取可能存在语义错误、物体遗漏或接触关系误判,深度估计在透明物体、高反光表面或严重遮挡的场景下尤其容易出错。深度数据虽然引入了深度检查机制来过滤明显缺陷,但通过检查的深度图仍可能含有局部误差。人类第一视角视频里的物理规律也未必能完全套用到机器人上,毕竟人手和机器人夹爪在形态、可达空间、力量上有着本质区别,机器人适配训练仍然是不可或缺的环节。
至于评测基准,SimplerEnv、LIBERO和RoboCasa测试的是重要但有限的操作场景,不包括超长时序的自主任务、柔性物体复杂操作、安全关键执行或面对严重分布偏移时的自主恢复能力。研究团队明确指出,未来需要在标注自动验证机制、深度与定位的不确定性处理、人类视频监督的系统消融研究,以及更广泛的真实机器人评测等方向继续深入。
归根结底,PhysBrain 1.0做到的事情是:用一条不同以往的路线,证明了"先让机器人读懂世界再教它动手"这个直觉是可行的,而且在多个标准测试上表现出了相当不错的数字。但机器人走进真正复杂的现实世界,能否应对各种意外,还需要更多探索。这篇论文更像是一个清晰的方向标,而不是一张已经完成的答卷。对于任何对机器人智能感兴趣的读者,完整论文已公开在arXiv平台,编号arXiv:2605.15298v1,随时可以查阅。
Q&A
Q1:PhysBrain 1.0和普通机器人学习方法有什么根本区别?
A:传统机器人学习靠大量收集机器人操作轨迹来训练,模型学的是"动作长什么样",而不是物理规律。PhysBrain 1.0则先用人类第一视角日常视频训练模型理解物体材质、空间位置、受力变化等物理常识,再用少量机器人数据做适配。就像先教会学生物理原理,再让他上操作台实践,而不是让他从零开始靠反复摸索记住每个动作步骤。
Q2:PhysBrain 1.0的双通道架构是怎么防止机器人训练破坏原有理解能力的?
A:在机器人适配训练阶段,模型被拆分为两条通道。其中通用通道完全冻结,不接受任何参数更新,专门保留视觉语言理解能力;具身通道可训练,专门学习动作预测。具身通道可以参考通用通道的输出,但训练信号不会反向改变通用通道的参数,类似于让老师全程旁观但不被学生的练习所干扰。
Q3:PhysBrain 1.0的蔬菜抓取实验为什么用蔬菜而不是工业零件?
A:蔬菜具有多样的物理特性,茄子光滑、番茄易变形、胡萝卜形状不规则、大白菜可弯折,这些特征对机器人的感知和抓取策略提出了很高要求,是一个覆盖多种物理挑战的压力测试场景。相比形状规整的工业零件,蔬菜更能反映机器人在物理理解上的真实能力差异,也更贴近日常生活中机器人可能需要处理的场景。





京公网安备 11011402013531号