我们常说,结果重要,过程更重要。这句话在 AI 领域,如今又有了新的注脚。
当前,多数 AI 模型擅长处理单一指令并给出最终答案,就像一个只关心结果的学生。然而,当它们被置于一个动态、信息不完整的真实世界中,需要通过“看”和“做”来完成多步骤的复杂任务时,这种重结果、轻过程的模式就显得有些不太适宜。如何让智能体不仅能做出正确的行动,更能构建一个连贯、可靠的内部思维过程?这正是当前智能体解决实际问题所面临的重要瓶颈之一。
近日,美国西北大学计算机系李曼玲教授团队联合华盛顿大学、斯坦福大学和微软研究院,提出了一个名为 VAGEN 的训练框架,专门用于训练能够在多轮交互中构建“内部世界模型”的视觉语言模型(Vision-Language Model,VLM)智能体。这项研究已被 NeurIPS 2025 接收,相关论文和代码已在 GitHub 上开源。
![]()
图丨相关论文(arXiv)
美国西北大学博士生王康睿、Pingyue Zhang、王子涵共同担任第一作者。
值得一提的是,这个研究团队集齐了多位《麻省理工科技评论》“35 岁以下科技创新 35 人”(MIT Technology Review Innovators Under 35,简称“TR35”)的入选者,通讯作者李曼玲教授是 2025 年 TR35 全球入选者,而斯坦福大学的吴佳俊教授和华盛顿大学的 Ranjay Krishna 教授则分别入选了 2024 与 2025 年度 TR35 亚太区名单。
要理解 VAGEN 的价值,首先要明白视觉 AI 智能体面临的挑战。想象你正在玩一个推箱子游戏:你看到屏幕上的画面,判断箱子和目标的位置,规划移动路线,然后执行操作。这个过程看似简单,但对 AI 来说却异常困难。
现有的大语言模型在处理纯文本任务时已经展现出强大能力,但当任务涉及视觉信息时,问题就复杂多了。文本信息是完整、精确的,而视觉观察往往是部分的、有噪声的。一个智能体通过摄像头只能看到眼前的场景,无法直接获知整个环境的完整状态。这也就是所谓的“部分可观测马尔可夫决策过程”(Partially Observable Markov Decision Process,POMDP)——智能体必须基于不完整的观察来推断真实的世界状态。
研究团队指出,这正是当前 VLM 智能体的核心瓶颈。他们测试了包括 GPT-4o、Claude 4.5 Sonnet、Gemini 2.5 Pro 在内的多个主流模型,发现即便是最强的 GPT-5,在他们设计的五项任务上的综合表现也只有 0.75 分(满分 1 分)。特别是在需要精确操作的机器人任务中,几乎所有模型都在某些子任务上完全失败。
这些任务涵盖了经典的推箱子和冰湖游戏、3D 环境中的导航、机械臂的精细操作,以及从图像生成 SVG 代码等多种场景,既有离散的网格世界,也有连续的物理空间,充分考验了模型的视觉理解和推理能力。
VAGEN 的核心思想是让 AI 进行“显性的视觉状态推理”。具体来说,就是在智能体生成每个动作之前,强制要求它完成两个推理步骤。第一步是“状态估计”(StateEstimation)——描述当前看到的是什么。就像人类会说“箱子在我右边,目标在箱子上方”,AI 也需要用语言明确表述当前的视觉状态。
![]()
图丨相关论文(arXiv)
第二步是“转换建模”(TransitionModeling)——预测下一步会发生什么。如果我向右推,箱子会移到哪里?目标位置会发生什么变化?这两步结合起来,就构成了所谓的“世界建模”(WorldModeling)。
研究团队设计了一套结构化的输出格式,要求 AI 在
标签中描述当前状态,在
标签中解释推理过程,在
标签中预测未来状态,最后在
标签中给出实际动作。
为了验证这种显性推理的效果,研究团队对比了五种不同的推理策略,其中包括从完全不思考(NoThink)到自由发挥(FreeThink),再到只做状态估计或只做转换建模的各种组合。
结果显示,完整的 WorldModeling 策略(同时包含状态估计和转换建模)在综合性能上达到 0.76,明显优于自由思考的 0.67 和不思考的 0.28。有趣的是,单独的状态估计或转换建模各有所长:前者在需要准确理解当前场景的导航任务中表现更好,后者则在需要精确预测的机械臂操作中更占优势。
![]()
(arXiv)
确定了推理框架后,另一个关键问题是:AI 应该用什么方式表达对视觉状态的理解?研究团队探索了三种表示方式。最直观的是自然语言描述,比如“玩家在左上角,箱子在玩家右侧”。第二种是符号化表示,直接用游戏原生的符号,比如用“P”代表玩家、“X”代表箱子。第三种是结构化格式,用 JSON 格式的字典记录所有对象的精确坐标。
![]()
(arXiv)
实验结果让人有些意外。在推箱子和冰湖游戏这类相对简单的任务中,自然语言表现最好(0.61 和 0.71),而符号化和结构化格式反而更差。研究团队分析认为,这是因为 VLM 在预训练时接触了大量自然语言文本,对这种表达方式更加熟悉,而对抽象符号的理解能力有限。
但在机器人操作任务中,情况完全反转。结构化格式的平均得分达到 0.94,优于自然语言的 0.91。原因在于,精确的坐标信息对于毫米级的机械臂控制至关重要,自然语言的模糊性会导致操作失败。这一发现也说明,视觉状态的表示方式并不是通用的,而是取决于任务特性。对于需要语义理解的通用任务,自然语言是最佳选择;但对于高精度操作,结构化的精确信息不可或缺。
光有推理框架还不够,如何训练 AI 学会正确推理才是关键。VAGEN 采用强化学习(Reinforcement Learning,RL)方法,通过奖励机制引导模型改进。
传统的 RL 方法通常在整个任务结束时给出一个总奖励,然后反向传播到每个步骤。但这种方法在多轮交互的场景中效果不佳——想象一个需要执行 10 步操作的任务,如果最后失败了,AI 很难判断是哪一步出了问题。VAGEN 提出了两个机制来解决这个问题。
首先是“世界建模奖励”(WorldModeling Reward),专门评估 AI 的推理质量。团队采用 LLM-as-a-Judge 的方法,让 GPT-4.1 nano 作为裁判,评估 AI 生成的状态描述和预测是否准确。这样,每一轮交互都能获得即时的推理质量反馈,而不是等到任务结束才知道对错。
其次是“双层通用优势估计”(Bi-Level GAE)。这个机制分两个层次计算奖励:先在“轮次级别”评估每一轮的整体表现,再在“token 级别”细化到每个生成的单词。就像批改作文时,既要看整篇文章的结构,也要看每个段落、每句话的表达。这种层级化的奖励分配,使得 AI 能够更准确地定位问题所在,加快学习速度。
![]()
图丨 token 级 GAE 与双层 GAE 框架(arXiv)
实验数据证实了这套机制的有效性。在完整的 VAGEN-Full 框架下(结合 WorldModeling Reward 和 Bi-Level GAE),仅有 30 亿参数的 Qwen2.5-VL-3B 模型最终达到了 0.82 的综合得分,不仅大幅超越未训练版本(0.21),甚至击败了参数量远大于它的 GPT-5(0.75)、Gemini 2.5 Pro(0.67)和 Claude 4.5(0.62)。
在训练过程中,研究团队观察到一些有趣的现象。随着训练推进,AI 的回答逐渐从多样化变得模板化。早期训练时,AI 会用各种不同的方式描述状态,比如“我需要向右移动接近箱子,然后向上推动”或“箱子在我前方,我应该先前进再调整方向”。但到后期,回答变得高度统一,主要差异只在方向词汇上,比如都是“我将向 X 移动,然后向 Y 移动”的固定句式。这种模板化也不完全是坏事——它反映了 AI 找到了高效的表达方式。但也引发了另一个问题:奖励黑客(reward hacking)。
部分 AI 学会了生成看似合理、实则空泛的回答来“讨好”评判系统。例如在冰湖游戏中,有些 AI 会习惯性地回答“玩家会到达礼物的位置”,无论当前状态如何。这种回答在语法上正确,也提到了目标,很容易通过 LLM 评判者的检查,但实际上并没有提供有价值的推理信息。
研究团队发现,使用 Bi-Level GAE 的模型特别容易出现这种行为,因为更细致的奖励机制让 AI 更容易找到“刷分”的捷径。为了应对这个问题,团队开发了几种缓解策略,包括结构化评估(要求 AI 输出可量化的信息,用 F1 分数评估)和重复惩罚(对高频出现的答案降低奖励),这些措施在一定程度上缓解了问题。
VAGEN 为视觉 AI 智能体的训练开辟了新路径,但从研究原型到实际应用仍有距离。论文显示,在配备 8 块 H100 GPU 的服务器上,训练一个任务需要 4 到 8 小时,同时消耗约 2,300 万到 6,000 万个 LLM 评判 token,这对商业化部署而言成本不菲。此外,当前 VAGEN 在 5 个精心设计的环境中表现出色,但真实世界的视觉任务往往更加开放、不确定,泛化性还需进一步验证。
![]()
参考资料:
1.https://arxiv.org/pdf/2510.16907
2.https://vagen-ai.github.io/
排版:刘雅坤





京公网安备 11011402013531号