当前位置: 首页 » 资讯 » 科技头条 » 正文

Dexmal 原力灵机硬核开源Dexbotic:一站式VLA代码库,打破重复造轮子困境

IP属地 中国·北京 编辑:陈阳 机器人前瞻 时间:2025-10-23 18:12:16

在具身智能全面竞速的当下,一个长期被忽视的问题正被不断放大。

VLA模型作为具身智能领域的核心范式,是机器人感知、理解与行动的核心路径。然而,过去几年的研究实践中,VLA的开发生态却呈现出碎片化的问题:不同研究机构采用不同的深度学习框架、模型结构和训练管线,导致算法复现困难、工程协同复杂。研究者往往需要反复配置多份实验环境,只为比较不同算法的性能;而模型结果的公平性和可重复性,也会受到质疑。

与此同时,许多流行的VLA策略仍然建立在过时的VLA模型或LLM模型之上。比如,OpenVLA及其衍生模型CogACT、OFT,都还是基于Llama2,这意味着,它们无法充分利用表示能力更强的Qwen3等模型带来提升能力。

结果就是,行业在表面上推陈出新,实则在同一代技术框架内打转。这种学术与工程层面的重复造轮子,也成为制约具身智能快速落地的隐性桎梏。

对此,Dexmal原力灵机推出了Dexbotic,这是一套基于PyTorch框架的开源VLA模型工具箱,旨在为具身智能研究者提供一个标准化、模块化、高性能的一站式科研基础设施。

Dexbotic以“统一架构+强大预训练模型+实验即脚本”为核心,提供了一个可同时支持多种主流VLA策略的统一代码库,使用户仅需一次环境配置即可复现多种VLA方法。Dexbotic统一的策略表示形式,使得无论是机器人操作还是导航,这些不同类型的VLA策略都可以在统一框架下进行定义与比较。

自动播放

相关链接如下:

官网:https://dexbotic.com/

Paper:https://dexbotic.com/dexbotic_tech_report.pdf

GitHub:https://github.com/Dexmal/dexbotic

Hugging Face:https://huggingface.co/collections/Dexmal/dexbotic-68f20493f6808a776bfc9fc4

01.

统一数据格式,整合多源机器人数据集

传统VLA研究经常因为数据往往格式各异、命名混乱,视频、传感器状态与文本描述难以统一对齐而陷入混乱,各种信息常需手工对齐,既耗时又易错。

对此,Dexbotic设计了一种名为Dexdata的统一高效的数据格式,为UR5、Franka、ALOHA、ARX5等多款主流机器人提供统一的数据格式。

在Dexdata格式中,所有内容被结构化存储为两个核心目录:视频目录与JSONL目录,视频目录中存储.mp4格式的视频文件,而JSONL目录中存储对应的文本信息。每个JSONL文件包含单个机器人任务的完整数据,还包含index_cache.json文件,用于记录所有任务的元数据并加速数据访问。

基于Dexdata格式的数据,系统将自动执行数据处理流程,提取图像、文本及状态信息用于模型训练,提高训练效率。相比Lerobot与RLDS等格式,Dexdata在数据加载与模型训练阶段能显著节省存储空间。

数据标准化是研究的基础,实则决定了后续多机器人、多视角的可拓展性,也决定了具身智能的规模化发展潜力。

Dexdata的创新之处,就在于没有局限于单一机器人类型,而是构建了可拓展的通用框架,让不同机器人的数据能够在同一框架下复用。Dexmal原力灵机团队还表示,他们将持续扩展Dexdata的适配范围,让更多机器人平台接入这一标准。

02.

提供两种高性能预训练模型,

支持多种主流VLA策略

Dexbotic从零开始预训练了视觉-语言模型DexboticVLM,既可以直接支持离散VLA训练,也可以作为现有VLA策略的基座模型。该模型采用模块化设计,整合了CLIP作为视觉编码器、两层MLP作为投影层、Qwen2.5作为大语言模型。

Dexbotic 提供了两种预训练模型:

离散型预训练模型(Dexbotic-Base):适用于通用VLA策略,模型使用了来自Open-X Embodiment数据集、RLBench、Libero、Maniskill2等多个仿真器的数据,并融合了UR5等真实机械人的数据。,用离散化token形式来学习动作空间。研究者可直接在此模型上微调,复现π0、OFT、CogACT、MemoryVLA等主流算法,而无需从零训练。

连续型预训练模型(Dexbotic-CogACT):专为连续动作策略设计,包括单臂和双臂两个版本。单臂模型基于Dexbotic-Base进行连续表征预训练,数据来自Open-X Embodiment子集与团队私有数据集;双臂版本包含来自8种真实单臂机器人(UR5、Franka、UniTree Z1、Realman GEN72、ARX5等)的52个任务数据,还进一步引入Robomind、AgiBot World 及 ALOHA双臂数据,以支持多视角输入与双臂任务。

Dexbotic这种同时覆盖离散与连续动作策略的设计,精准击中了当前VLA研究的核心需求差异,既兼顾了学术研究的开放性,又考虑了产业落地的实用性。

目前,DexboticVLM了同时提供支持π0、OpenVLA-OFT、CogACT、MemoryVLA等多种VLA策略的统一代码库,用户仅需一次环境配置即可复现多种VLA方法。另外,用户也可以便捷地自定义新的VLA模型。这就让研究者无需重复搭建环境,也能轻松横向比较不同策略的性能,从而在统一标准下推动算法的进化。

03.

创新实验脚本机制,

让开发流程更加简洁高效

在传统的VLA开发流程中,研究者需要手动配置大量YAML文件,这些配置复杂、易错,不仅浪费大量时间,也容易让科研的可复现性陷入混乱。

而Dexbotic秉持着“实验为中心”的理念,重塑了这一流程。它创新性引入的实验脚本机制,把一套复杂的实验配置,简化为一套可继承的脚本体系,在确保系统稳定性的同时支持快速实验迭代开发。

具体来说,用户不再需要手动维护庞杂的配置文件,可基于base_exp脚本继承配置,修改优化器、数据、模型等字段,不必复制完整文件即可创建新的实验方案。运行命令格式为:python xxx_exp.py -task train。

这样的机制就意味着,研究人员的时间不再浪费在环境修补与路径兼容上,而能真正投入到算法优化本身,提升研究单位产出。不仅提升了个体效率,更能加速整个行业的技术迭代速度,形成良性创新循环。

Dexbotic同时支持云端与本地一体化训练,它既可运行在阿里云、火山引擎等大规模云训练平台上,也适配RTX 4090等消费级显卡的本地训练环境。这让研究门槛被大幅降低,中小型团队甚至个人研究者,都可以以更低成本参与到具身智能的创新浪潮中。可以说,Dexbotic让做实验本身重新变成了一件轻松、高效且透明的事情。

04.

显著提升多个主流仿真器效果,

还能完成多项日常任务

在多个主流具身智能仿真基准,如SimplerEnv、CALVIN、ManiSkill2、RoboTwin2.0 和 LIBERO上,Dexbotic 团队系统验证了模型表现。结果显示,基于Dexbotic的策略在各项指标上都显著超越了原版。

以SimplerEnv为例,在“将勺子放在毛巾上”、“将胡萝卜放在盘子上”、“堆叠方块”与“将茄子放入篮子”这些任务中,Dexbotic的CogACT较原版性能提升18.2%,DB-OFT相较原版提升46.2%。同时,DB-MemoryVLA在该环境下的成功率达到81.3%,比原始版本提升近10%。

在CALVIN的长时序操作任务中,DB-CogACT在所有指标上均优于原始模型,平均任务长度达到4.06,较原版提升0.81。DB-OFT版本也表现出更优的泛化性能。

在ManiSkill2的多个抓取与放置任务中,Dexbotic在五个代表性任务上进行了验证。相比原始CogACT、OFT,DB-CogACT将平均成功率又进一步提升了4%,DB-OFT更是将平均成功率提升了42%。

在RoboTwin2.0测试中,CogACT在调整瓶子、抓取滚筒、放置空杯和放置手机支架这四个任务的平均成功率为43.75%,而DB-CogACT的成功率达到了57%。这表明,Dexbotic的预训练模型在双臂机器人形态下能带来显著的性能提升。

在LIBERO基准测试中,许多先进VLA策略性能已经接近饱和。但是借助Dexbotic预训练模型,像CogACT、MemoryVLA这些策略的性能还能进一步提升,比如,DB-CogACT在四个任务集上的平均成功率比CogACT基线提高了1.3%。

在真实世界实验中,Dexbotic在UR5e、Franka、ALOHA、ARX5等机器人平台上完成了包括摆放餐盘、寻找特定盒子、按顺序按下按钮等多项任务,成功率普遍在80%-100%之间,展现了较强的可迁移性与控制稳定性。

不过,Dexbotic也验证了,在“撕碎纸张”“把薯条倒进盘子里”这类精细操作任务上,当前VLA策略还存在一定挑战。

具身智能的研究离不开开源硬件的支撑。Dexmal原力灵还推出了其首款开源硬件产品——Dexbotic Open Source - W1(DOS-W1),为行业提供一个低门槛、高可复现性的硬件底座。

DOS-W1采用完全开源的设计方案,即将开源所有的文档、BOM、设计图纸、组装方案、相关代码;采用大量的快拆结构与可替换模块,极大地降低了机器人的使用门槛、改造便利性和维护便利性。同时,其符合人体工学的抗疲劳设计,有效提升了操作人员的舒适度与数据采集效率。

DOS-W1不只是一个硬件平台,也是构建产业开放生态的重要节点。Dexmal原力灵机将与各产业伙伴一起,持续丰富Dexbotic Open Source系列。产业链共创,有望使其成为一个让更多人真正参与进来的、能持续把创新能力带到现实世界的加速器。

05.

结语:加速具身大脑发展的关键一步

在具身智能的发展道路上,Dexbotic的意义远不止一个开源工具箱。它的出现,不仅显著简化了VLA模型的复现与实验流程、显著提升研究效率,还通过高性能预训练模型与模块化架构推动了具身智能研究的发展,是解决具身大脑的关键一步。

对研究者而言,不仅可以使用Dexbotic开发更多真实世界任务,还能把基于Dexbotic开发的策略提交至RoboChallenge平台。RoboChallenge基于多款主流机器人底座、远程真机实验、Table30桌面操作基准测试集,够克服真实环境下的性能验证、标准化测试条件、公开可访问测试平台等挑战,为模型(VLAs)在机器人的实际应用提供更加可靠和可比较的评估标准。

Dexmal原力灵机称,将持续投入Dexbotic生态建设,计划扩展更多先进VLM基座模型,集成仿真到真实物理世界的迁移学习工具链,并建立社区驱动的模型贡献机制。还邀请全球开发者通过代码贡献、算法优化、应用案例分享,共同参与Dexbotic社区建设,为通用机器人智能的到来奠定坚实基础。

标签: 模型 数据 机器人 任务 智能 开源 策略 原力 灵机 研究者 格式 目录 核心 代码 世界 双臂 框架 性能 环境 流程 行业 大量 算法 视频 团队 落地 成功率 困境 贡献 高性能 轮子 状态

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新