过去,机器人听到“帮我把毛巾放进洗手池”——它只会机械地执行一串预设动作。现在,我们让G0.5做到了:先想——毛巾在哪?洗手池在哪?应该先拿起毛巾,再移动过去,最后放下。边思考,边行动。
这一能力依托于我们最新的 VLA(视觉-语言-行动)模型架构设计:让同一个模型、同一套权重,同时完成推理与行动,让机器人拥有“行动中的思考能力”。
言出法随:零样本泛化至新物体、新环境、新指令
G0.5 在 R1 Lite 机器人上,零样本(未经任何该场景的微调),仅凭自然语言指令直接驱动机器人完成操作任务。模型从未见过当前的环境布局、物体类别和指令组合,却能实时理解指令意图、分解动作并输出流畅的双臂控制。
这正是 G0.5 “言出法随”的开箱即用能力——一个模型,一句话,直接干活。
从“记住任务”到“学会操作”
过去,机器人学习一项新任务通常意味着:重新采集数据、重新微调模型、重新适配场景。它们可以出色地完成被训练过的任务,却很难泛化到新的物体、新的环境和新的指令。
我们通过大规模、多任务预训练,让 G0.5 形成了可迁移、可组合的操作智能。抓取、放置、推拉、开合、移动等原子动作,不再是单个任务中的固定片段,而是沉淀为模型可以复用的能力单元。
在面对新的场景、空间布局和从未见过的物体时,仅凭自然语言指令,G0.5 就能直接执行操作,机器人开始 “边思考边行动”(Think While Acting)。
![]()
三大核心能力:让具身基础模型学会“边想边干”
1. 统一异构动作编解码器:让一种“动作语言”覆盖所有机器人
不同机器人的形态、自由度、控制频率千差万别——双臂人形、移动底盘、单臂工业机器人,每一种都有各自的动作维度。过去的做法,要么每种机器人单独搞一套(如 FAST 用固定的 DCT 流水线为每种 embodiment 各自离散化),要么把所有自由度拍平成一个长向量再做量化。前者无法跨本体共享知识,后者会让 token 数量随总自由度线性膨胀——哪怕当前这一步只是手指动一下,模型也得为所有关节生成 token,浪费严重,而且语义高度纠缠、迁移性差。
我们认为,动作 token 本应像语言一样既结构化又稀疏。为此我们设计了一套统一的异构动作编解码器。得益于这套设计,G0.5 用一套动作词表就能涵盖从桌面双臂到全身移动操作的各类本体,自回归解码带来的额外开销也被控制在可接受范围内——这正是我们能把 VLM 重新放回“动作生成者”位置、而不是退化为条件编码器的关键前提。
![]()
G0.5 Action tokenizer
![]()
2. 原生动作思维链:让机器人不仅“边思考边行动”,还听得懂“怎么做”
统一动作词表让我们可以把 VLM 重新放回“动作生成者”的位置。这件事真正的回报,是 VLM 在预训练中习得的生成式能力——链式思维、上下文学习、prompt 调制——可以原生作用于动作生成,而不必先穿过 VLM-as-Encoder 架构里那个“条件编码”的压缩瓶颈。
多数现有工作中,链式思维(CoT)只是训练时的辅助任务,推理模块和动作模块被割裂在两套参数、两个目标里——推理结果想影响动作,必须先被压成一段隐状态再喂给下游 expert,中间既有语义损失,延迟也不可控。我们认为应回归本源,将 CoT 与动作生成融合在同一个自回归流中:模型会先输出子任务分解、目标物体框、2D 轨迹提示等推理结果,再输出动作 token。
这套设计带来两个可分别验证的收益:
▪长程任务的零样本分解能力:在 BEHAVIOR-1K 这类需要将自然语言指令拆解成数十个子步骤的家居任务上,单个 G0.5 checkpoint 仅训练一个 epoch 即超过训练四个 epoch 的 π0.5 ,也超过由四个 checkpoint 组成的 Challenge 冠军方案。在预训练分布外的家居任务上,模型同样能零样本完成子任务分解。
▪语言对行为的实时塑造:因为 prompt 直接进入和动作 token 同一条 AR 流,自然语言可以在推理时连续调制动作分布,无需重新训练。作为一个代表性的定性示例,在“打开烤面包机开关”任务上,由于开关行程较长,仅给“打开开关”指令时模型的按压力度不够;一旦在指令中追加“push harder”,模型会明显加大下压力度并最终触发开关。
![]()
![]()
G0.5 在 R1 Lite 上零样本执行“把毛巾放进洗手池”:在同一自回归流中,模型先生成思考(子任务、目标物体框),再输出动作 token,并从每一帧观测闭环重规划。
3. 时空注意力模块:为机器人注入上下文感知先验
真实的复杂家居任务不能仅依赖单帧画面的“本能反应”。当视线被机械臂短暂遮挡,或任务意外失败时,机器人必须依赖历史上下文才能维持稳定的空间感知。我们为 G0.5 配备了轻量级时空注意力模块,融合数秒的历史视觉信息,使模型在局部视野丢失时依然能稳健执行。
实验表明,得益于预训练阶段习得的感知先验,G0.5 在 BEHAVIOR-1K 中“移动箱子到储物间”“装车”“搬木柴”“整理卧室”等长程任务上稳定优于 π0.5。
![]()
领跑七大评测场景,全面超越 SOTA
G0.5 在 7 个独立评测场景中全面领先,核心数据如下:
![]()
![]()
![]()
![]()
![]()
![]()
真实世界微调评测:在 R1 Pro / R1 Lite 的六个任务-本体设置上,G0.5(深橙)在成功率与过程分上整体大幅领先 π0.5 与 GR00T-N1.7。
![]()
DROID 零样本评测:无任何该机器人微调,G0.5 在 10 个桌面操作任务上平均成功率 82.5%,逐任务均优于 π0.5-DROID 与 MolmoAct2-DROID。
![]()
Pick-and-Place 基准:从零样本到 50 小时后训练,G0.5(深色)在“语言跟随率”与“任务成功率”两项指标上,各数据规模均优于 π0.5
从这些结果中,我们可以看见:
▪大规模预训练使 G0.5 获得了具身基础模型的关键能力。在此基础上,仅需轻量后训练即可在 7个基准上超越 π0.5 并取得了SOTA的效果, 验证了该预训练范式的有效性。
▪零样本开箱即用:DROID(Franka)和 PP Bench(R1 Lite)两项零样本泛化实验表明,G0.5 的预训练智能可以直接迁移到任何同型号机器人平台和一个全新的环境。
▪单模型泛化与性能优势:在 BEHAVIOR-1K 挑战赛的 50 个长程移动操作家居任务评测中,仅凭单一模型权重,G0.5 只需后训练1个 epoch(0.29)便显著超越了多模型集成的冠军方案与 π0.5,并在4个 epoch 下进一步提升至 0.31,展现出更高的性能上限,超过半数任务表现更优。
▪预训练表征克服长程任务瓶颈:这直接验证了基于结构化动作空间与视觉记忆的预训练先验,才是模型跨越长程移动操作鸿沟、实现高效泛化的核心所在。
结语:从执行动作,到理解世界
G0.5是星海图具身基础模型的重要升级:
▪不再把 VLM 当编码器,而是让它重新成为行动者;
▪不再割裂推理与动作,而是让模型边思考边行动;
▪不再只执行预设程序,而是让模型听得懂“怎么做”、记得住“发生了什么”。
我们相信,通用具身智能需要一条可扩展的模型和数据路径。接下来,我们将在更多机器人数据、更复杂的环境、更长的任务时序中继续推进。
后续模型开源后,G0.5 也将支持在多种本体上的“开箱即用”部署,助力开发者开展落地实践。
技术报告已完整公开:
https://opengalaxea.github.io/G05/
https://opengalaxea.github.io/G05/Galaxea_G0_5.pdf





京公网安备 11011402013531号