原文作者:公众号“深蓝具身智能”
原文链接:https://mp.weixin.qq.com/s/yGE3tLQywqf4wvsOlj6WxA
![]()
同时支持双臂协同、双灵巧手高自由度精细操作
——端到端VLA模型
过往主流VLA系统,要么聚焦双臂低自由度夹爪控制,要么专攻单臂高自由度灵巧手操作,始终无法兼顾双臂协同与精细手指动作的双重需求。
比如活塞插入需双臂精准配合,拧瓶盖、精细取物则依赖多指灵活调控,这类任务长期缺乏统一的VLA解决方案。
近日,首个原生面向双臂双高自由度(36自由度)灵巧操作的开源VLA模型:Dexora,打破此前VLA的形态壁垒,为通用灵巧机器人的落地提供了全新范式。
![]()
硬件与遥操作:虚实协同的灵巧数据底座
高自由度灵巧操作的核心前提,是精准、可规模化的数据采集。Dexora摒弃单一遥操作方案,打造“外骨骼+VR”混合遥操作系统,同时驱动物理机器人与MuJoCo数字孪生,从根源解决数据采集的精度与规模难题。
![]()
▲Dex 硬件与混合遥操作系统示意图©编译
硬件层面,Dexora搭载两台6自由度AIRBOT机械臂与一对12自由度XHAND灵巧手,单只手12个关节独立驱动,拇指与食指支持侧摆动作。
可实现扭转、捏取等类人精细操作,整套系统总计36自由度,为复杂双手协同任务提供硬件基础。
遥操作设计上,采用“大动作+小动作”分离策略:
定制外骨骼背包捕捉机械臂整体运动(无漂移、低延迟),Apple Vision Pro实现无标记手指追踪,兼顾手臂大范围移动的稳定性与手指精细动作的灵活性。
![]()
▲仿真 / 真实数据集物体与任务分布示意图©编译
更关键的是虚实同步设计:
遥操作指令同时下发物理机器人与数字孪生,两者传感器数据(4路RGB、36自由度关节状态)20Hz同步记录。
既保障真实场景数据的真实性,又能在仿真中低成本扩展任务场景,形成“真实+仿真”互补的数据集。
最终构建的数据集包含10万条仿真轨迹(650万帧)、1万条真实遥操作轨迹(292万帧),覆盖30类仿真物体、17类真实物体,兼顾基础抓取与精细灵巧任务。
![]()
模型架构:扩散Transformer+质量判别器双核心
Dexora基于数据质量感知的端到端VLA架构,通过扩散Transformer生成动作,搭配离线质量判别器过滤噪声数据,解决遥操作数据质量参差不齐、高维动作训练不稳定的行业痛点。
![]()
▲Dexora 整体总览图(动机 / 数据 / 架构 / 性能 / 泛化)©编译
扩散Transformer策略网络
采用解码器-only扩散Transformer作为策略核心,输入多视角RGB图像、语言指令与当前关节状态,输出36自由度连续动作序列。
模型采用T5编码语言指令、SigLip编码图像特征,交替注入Transformer块,通过去噪预测生成动作,兼顾多模态融合能力与高维动作建模精度。
数据质量判别器
遥操作数据常因操作误差、传感器噪声存在低质量轨迹,直接训练会拉低模型性能。
Dexora设计离线判别器,通过“运动平滑度+任务成功率”双重标准筛选数据:
预筛选:计算轨迹加速度、抖动值,保留运动平稳的样本;
后验证:重放轨迹,保留无碰撞、任务成功的样本。
判别器以冻结的预训练策略为基准,预测轨迹质量得分(0-1),训练时将得分转化为权重,高质量轨迹权重高、低质量轨迹权重低,公式简化为:
其中为质量权重,为预测噪声,为真实噪声。这种设计让模型聚焦有效数据,大幅提升高维灵巧动作的训练稳定性。
![]()
训练流程:三阶段渐进式优化
Dexora采用“仿真预训练+判别器训练+真实微调”三阶段训练,平衡基础能力与灵巧技能,实现从仿真到真实的平滑迁移。
![]()
▲Dex 数据过滤、判别器训练、质量感知训练框架图©编译
第一阶段,10万仿真轨迹预训练,让模型掌握抓取、组装等基础操作,形成初始动作生成能力;
第二阶段,用筛选后的高质量真实数据训练判别器,使其精准识别轨迹优劣;
第三阶段,用全部真实数据微调策略,通过质量权重引导,让模型从基础能力进阶到拧瓶盖、精细取物等灵巧技能。
![]()
性能与泛化
实验结果显示,Dexora在基础任务、灵巧任务、跨形态泛化三大维度均实现突破,验证了双臂双高自由度设计与质量感知训练的有效性。
![]()
▲基础任务示例图©编译
![]()
▲基础任务成功率对比表©编译
基础任务(抓取、组装、关节操作):
平均成功率达89.6%,12项任务中7项成功率超90%,双臂协同任务(如双手递物、嵌套碗分离)优势显著,远超GR00T N1(82.1%)、π0(50.4%)等基线。
![]()
▲灵巧任务示例图©编译
![]()
▲灵巧任务成功率对比表©编译
灵巧任务(拧瓶盖、用钢笔、切韭菜等):
平均成功率66.7%,较最优基线GR00T N1(51.7%)提升15个百分点,尤其在拧瓶盖、精细面团操作等需要双手配合+多指调控的任务中,基线几乎失效,Dexora仍能稳定完成。
![]()
▲分布外泛化性能图©编译
泛化能力:
一是分布外泛化,在未知背景、光照、物体、遮挡等场景下,成功率仅小幅下降,鲁棒性强;
二是跨形态迁移,36自由度模型可直接适配单臂夹爪、双臂夹爪、单臂低自由度手,无需重新训练,仅需适配动作维度,打破VLA的形态依赖。
![]()
▲基础任务成功率对比表©编译
消融实验证,质量判别器可降低动作抖动,提升任务稳定性,证明“真实数据+质量感知”是灵巧VLA的核心要素。
![]()
▲质量判别器效果对比轨迹图©编译
![]()
灵巧VLA:价值与局限并存
Dexora是首个原生双臂双高自由度VLA,证明高自由度模型可向下兼容低自由度设备,为通用机器人提供“高维训练、低维部署”新思路。
虚实协同采集+质量感知训练,解决灵巧数据稀缺、噪声大的难题,为高维VLA数据建设提供参考。
![]()
▲Dexora 与主流 VLA 的形态覆盖对比图©编译
同时,存在的局限在于:
硬件依赖:36自由度系统成本高,难以快速普及,且无触觉反馈,拧瓶盖等接触敏感任务成功率仍低。
任务局限:复杂长时序任务(如多步骤装配)、动态环境适应能力不足。
泛化边界:跨材质、极端场景的稳定性有待提升。
过往VLA要么“能双手不精细”,要么“能精细不双手”。
Dexora首次将两者统一,用开源模式降低门槛,为服务机器人、工业灵巧操作等场景提供可行方案。
未来,若能融合触觉反馈、强化长时序推理,Dexora有望进一步缩小与人类操作的差距,推动通用灵巧机器人从实验室走向实际应用。
Ref
论文标题:Dexora: Open-source VLA for High-DoF Bimanual Dexterity
论文作者:Zongzheng Zhang, Jingrui Pang, Zhuo Yang, Kun Li, Minwen Liao, Saining Zhang, Guoxuan Chi, Jinbang Guo, Huan-ang Gao, Modi Shi, Dongyun Ge, Yao Mu, Jiayuan Gu, Rui Chen, Hao Dong, Huazhe Xu, Li Yi, Yixin Zhu, Hang Zhao, Pengwei Wang, Shanghang Zhang, Guocai Yao, Jianyu Chen, Hongyang Li, Hao Zhao
论文链接:https://arxiv.org/pdf/2605.18722
项目链接:https://dexoravla.github.io/
雷峰网





京公网安备 11011402013531号