开放全栈！超越π0，具身智能基础大模型迎来真·开源，开发者狂喜

IP属地中国·北京 编辑：杨凌霄量子位 时间：2025-09-08 14:20:04

衡宇鹭羽发自凹非寺
量子位 | 公众号 QbitAI
继π0后，具身智能基座模型在中国也终于迎来了真正的开源——
刚刚，WALL-OSS宣布正式开源！
在多项指标中，它还超越了π0。
如果你是搞具身的开发者，了解它的基本资料，你就一定不会想错过它：
它是一个通用基础具身模型，泛化性和推理能力一流，你可以在自有本体上部署，快速微调后用起来。
它还是一个多模态具身模型，输入与输出的数据，有语言、视频、动作等多种形态，具备良好的因果推理、空间理解和反思能力。

我们调研了一圈发现，在4.2B参数规模下，融合了超大规模的高质量真机数据进行预训练的WALL-OSS，是唯一一个具备语言、视觉、动作多模态端到端统一输出能力的开源具身模型。
这一波操作，不香都难。

它凭什么这么能打？我们得从背后的团队说起。
用最近的流行梗来说，模型“基础”，背后团队就不基础——成立于2023年底的自变量机器人。
目前，分层架构与端到端模型是两条具身的主要技术路径。从成立起自变量就全身心押注后者。去年11月，团队推出了WALL-A，全球最大规模的端到端统一具身大模型。

技术上屡有成果，资本市场也分外看好。
就在今天，这支队伍刚刚宣布完成了近10亿元A+轮融资。
阿里云、国科投资领投，国开金融、红杉、渶策、美团、联想之星、君联资本都在这一轮股东名单之列。
据了解，融来的这笔钱，大部分依旧投入全自研通用具身智能基础模型的持续训练。
单卡训练+开放泛化，所有轮式机器人都能跑
仅需要RTX 4090级别的同等算力显卡，开发者便能完成WALL-OSS从训练到推理部署的全过程。
更重要的是，WALL-OSS在保证低成本训练的同时，依旧实现了顶尖的泛化表现。
在严格的ID（分布内）和OOD（分布外）评测中，WALL-OSS展现出领先π0等同类开源模型的性能优势。
首先在泛化性上，即使是在指令描述、动作动词、物体方位等要素发生变化的OOD场景下，WALL-OSS依旧能保持高任务成功率和指令遵循度，展现出优异的环境适应性。

在需拆解细分指令的长程任务中，WALL-OSS也显著优于采用扁平化策略的基线模型（如π0-flat）。
在依赖CoT的推理类任务里，WALL-OSS更是优于π0-flat和pi-gpt-prompt等强基线。

此外通过空间VQA、视觉定位、场景语言描述等多模态基准测试验证，WALL-OSS不仅可以完整保留VLM的核心功能，还在原有基础上实现了能力强化。
这种对核心能力的扎实沉淀，让它能同时兼顾推理规划和动作执行，可输出语言和动作双模态，一些视觉信息也能以语言形式传递。
值得注意的是，WALL-OSS采用统一的Transformer架构，并通过专家分流机制实现语言、视觉、动作在统一框架下的生成与协同优化。
这种真正意义上的端到端避免了多阶段流程的误差累计，极大提升了模型在长程和“推理+操作”复合任务上的稳定性和成功率。

截至目前，WALL-OSS填补了此参数区间内的高水平具身智能大模型的空白，成为业界唯一一个同尺寸下的面向物理世界交互、端到端路径的具身智能统一模型。
更重要的是，WALL-OSS并不依赖特定场景优化，且具备跨场景迁移与执行能力——
从养老护理到工业装配，从酒店服务再到物流分拣……一个真正意义上可以通用部署的具身大脑，展现出巨大的应用潜能。

所以从现在起，无论是产业界做场景落地的团队还是高校实验室，甚至是极客爱好者，都可以部署最前沿的具身智能大模型。
具体到硬件适配方面，WALL-OSS可以通过微调，快速适配到不同本体上，极大地降低了机器人应用的落地。
4大创新，让4.2B模型击碎具身智能“不可能三角”
目前的具身智能界，存在着一个广泛公认的技术难题：
如何在模态统一、动作精度和能力泛化之间达成平衡？
这个“三难困境”，几乎构成了当前具身智能模型的能力上探的绊脚石。市面上大多数模型通常只能做到一个，两者兼顾已经很难，更别提三者具备。
WALL-OSS是少数试图正面破解这一结构性难题的模型之一：它在各项指标上均追求极限，并从架构到训练范式，从数据构建到推理机制，进行了系统性重构。
这让模型在当前4.2B参数的体量下，实现了模态统一、推理泛化与动作生成的能力闭环。

这背后的第一步，事关模型架构设计。
WALL-OSS没有采用传统多模态拼图式的堆叠结构，而是首创了“共享注意力 + 专家分流（FFN）”这一新架构。
简单来说，它将语言、视觉、动作等信息都嵌入在同一个表示空间中处理，通过共享注意力机制实现模态间的信息交叉，同时再通过专家FFN高效处理不同任务。
这种设计有效避免了VLM知识迁移中的“灾难性遗忘”和“模态解耦”两大难题，在融合度更高的同时，又能保留每一模态的独特表达能力。
第二个关键点，是对数据质量及训练策略的把控。
WALL-OSS背后，是大规模的VLA训练集的支撑，其中主要包括大量自采高质量真机数据和具身多模态数据。
值得注意的一点是，真机数据高质量、高精度，与真实世界高度贴合，是目前具身大模型中最好的数据源。

在有了规模够大、多样性丰富、质量够高的数据的基础上，自变量团队精心设计了训练策略。
传统端到端训练方式常常面临一个问题：认知能力强的模型不一定能输出精准动作，而擅长动作控制的模型则缺乏推理和规划力。
为了解决这一问题，WALL-OSS设计了Inspiration Stage（启发阶段）和Integration Stage（融合阶段）两阶段训练策略。

在Inspiration Stage阶段，继续使用原VLM的FFN结构，加入多种预训练任务以增强空间+语义理解能力、引入Embodied VQA（具身视觉问答）任务，并引入离散动作学习。
其核心目标是保持原始VLM能力不变的基础上，增强其对空间结构和动作的初步理解，为后续动作生成打下感知语义基础，避免“灾难性遗忘”。
Integration Stage阶段则分为两个子步骤。
第一步，冻结VLM，仅训练动作模块；第二步，解冻VLM，联合优化全模型。
如此这般，模型能从语言和视觉输入中连续生成高频物理动作，既保留了VLM的语言与视觉理解能力，又具备细粒度动作执行力，建立统一、协同、紧耦合的跨模态表示空间。

研发团队发现，采用“先离散、后连续、再联合”这一范式后，VLM强大的认知能力，能稳定、无损地迁移和扩展到物理动作上。
而团队独具匠心的第四个创新点，是让WALL-OSS有了内生的高级推理能力。
具体来说，WALL-OSS的统一跨层级思维链将思维链推理的概念从传统狭义CoT（大语言模型中逐步文本推理）推广至涵盖整个语义-感知运动频谱的广义CoT：
指令→推理（CoT）→子任务规划→连续动作。
这种统一框架实现了跨层级抽象层面的前向任意映射，使模型能够在单一可微分框架内无缝切换高层决策与底层执行。
自变量机器人CTO王昊表示：
这是WALL-OSS能够胜任长程、复杂任务的关键。
在面对未知环境、从未习得的任务时，模型也能自主拆解步骤，逐步思考，寻求解决办法。

So，具身智能“不可能三角”不是真的牢不可破。
架构、数据、训练、统一跨层级CoT四线齐发，让WALL-OSS在体量适中、硬件可负担的前提下，建立了一个真正能通用执行的具身智能能力底座。
真·开源通用模型，为具身智能“修路”
说完模型能力、技术突破，最后我们得说说它最破圈的一步：
WALL-OSS，它真·开源了。
在此前，具身行业里除了π0，开源界没有完全开源又真能打、真能用的；但对开发者来说，π0又得花很长时间才能微调用起来。
那么WALL-OSS呢？
——没有OpenAI那种长期吊胃口式的夸张性预告，不是只发paper那种程度的，开源的还不是几百个数据样本量的小模型。
这次自变量放出的，是一整套完整可复现的具身大模型方案。
包括预训练模型权重、训练代码、数据集接口，甚至还附带了详细部署文档，开发者可以在自己的机器人上直接跑通闭环流程。
这样即使开发者没什么训练经验，也能让第三方机器人无门槛接入最先进的具身智能基座，完成模型微调和复现任务。
不管你是研究机构、机器人公司，还是独立开发者，只要你有一个本体设备，哪怕不是自变量出品，也能把WALL-OSS跑起来。
这一步，直接把具身智能的进入门槛拉低了好几个台阶——实测反馈，外部团队最快一周内就能完成适配。
（注：通常情况下，这一过程需要1~2个月）
当然，如果用的是自变量本家的具身智能硬件，适配会更快，效果更丝滑。

为什么要开源？为什么要这么彻底地开源？
过去几年，整个具身智能赛道看上去热闹，发布会一个接一个，但似乎陷入了一种“过拟合演示”怪圈。
Demo演示一次次惊呆众人，但真正用起来，效果就是大打折扣。
自变量团队认为根本原因还是模型基建的缺失。
具身智能特别就特别在它是“软硬件一体”的，所以一旦基础设施受限，想把模型用起来，就需要不断适配、微调，就意味着高投入、高门槛、长时间。
与其每个团队每次都要花那么大功夫，为什么不索性直接彻底开源呢？
要知道，国内不缺有想法、有实力的人才或团队，能在某一个环节上节约时间，都能加速推动研发进度和实际场景落地。
至于数据和算力的问题，很多科研团队、中小企业都难以只靠自己克服。
所以，具身智能领域迫切需要一个低算力、能力强、还开源的基础模型来打破僵局。
WALL-OSS，就是这么一个符合上述条件的具身大模型。
“我们想让整个行业以最低的成本，获得最先进、最通用的能力基座。”自变量CTO王昊总结道，“因为没有基础模型，具身智能行业根本长不大。”

并且，自变量团队希望通过WALL-OSS乃至后面持续的开源，建立起开源的标杆。
这个举动，能让“只能在定制化场景中表现优异”的机器人无处遁形，进一步推动行业之间的公平，倒逼技术透明化发展。
也能让更多的人才愿意加入具身智能行业，去一起攻破一些核心的技术难点。
在具身智能这场长跑里，终点一定不会只给某一家公司准备鲜花和奖杯。但起点，至少该有一块足够稳的起跑板。
自变量要做的，就是这块起跑板。
GitHub：
https://github.com/X-Square-Robot/wall-x
项目主页：
https://x2robot.com/en/research/68bc2cde8497d7f238dde690

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

3999的一加15，好像心甘情愿当子品牌了。

淘宝出了个新功能，好像压榨了它自己。。。

一加 15 手机蜂窝网络配置公布，确认支持 n79 中高频专用频段

七成募资用于研发赛力斯冲刺港股

神舟二十一号发射进入倒计时

上海AI实验室重新定义视频理解：让AI像侦探一样思考长视频

全站最新

3999的一加15，好像心甘情愿当子品牌了。

淘宝出了个新功能，好像压榨了它自己。。。

一加 15 手机蜂窝网络配置公布，确认支持 n79 中高频专用频段

七成募资用于研发赛力斯冲刺港股

热门推荐

3999的一加15，好像心甘情愿当子品牌了。

淘宝出了个新功能，好像压榨了它自己。。。

一加 15 手机蜂窝网络配置公布，确认支持 n79 中高频专用频段

七成募资用于研发赛力斯冲刺港股

神舟二十一号发射进入倒计时

Unity中国官宣与地平线达成战略合作

美团骑手社保补贴全国上线

北京市网信办严处一批破坏网络涉军生态“自媒体”账号

上海AI实验室重新定义视频理解：让AI像侦探一样思考长视频

NYU研究揭示：模型宽度与能力非线性相关

对话工程院院士王浩：我国独创的“河湖长制”值得向“全球南方”国家推广

中山大学突破：AI实现精准图像语义搜索

神舟二十一号满足发射要求发射场区完成全系统发射演练

大量用户举报投诉，微信：严厉打击！

杜克大学开创新型物联网控制语言，手机就能对话所有智能设备

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

开放全栈！超越π0，具身智能基础大模型迎来真·开源，开发者狂喜

单卡训练+开放泛化，所有轮式机器人都能跑

4大创新，让4.2B模型击碎具身智能“不可能三角”

真·开源通用模型，为具身智能“修路”