李曼玲开源新训练框架VAGEN，让AI智能体学会看懂并推理动态世界

IP属地中国·北京 DeepTech深科技 时间：2025-10-26 00:07:48

我们常说，结果重要，过程更重要。这句话在 AI 领域，如今又有了新的注脚。
当前，多数 AI 模型擅长处理单一指令并给出最终答案，就像一个只关心结果的学生。然而，当它们被置于一个动态、信息不完整的真实世界中，需要通过“看”和“做”来完成多步骤的复杂任务时，这种重结果、轻过程的模式就显得有些不太适宜。如何让智能体不仅能做出正确的行动，更能构建一个连贯、可靠的内部思维过程？这正是当前智能体解决实际问题所面临的重要瓶颈之一。
近日，美国西北大学计算机系李曼玲教授团队联合华盛顿大学、斯坦福大学和微软研究院，提出了一个名为 VAGEN 的训练框架，专门用于训练能够在多轮交互中构建“内部世界模型”的视觉语言模型（Vision-Language Model，VLM）智能体。这项研究已被 NeurIPS 2025 接收，相关论文和代码已在 GitHub 上开源。

图丨相关论文（arXiv）
美国西北大学博士生王康睿、Pingyue Zhang、王子涵共同担任第一作者。
值得一提的是，这个研究团队集齐了多位《麻省理工科技评论》“35 岁以下科技创新 35 人”（MIT Technology Review Innovators Under 35，简称“TR35”）的入选者，通讯作者李曼玲教授是 2025 年 TR35 全球入选者，而斯坦福大学的吴佳俊教授和华盛顿大学的 Ranjay Krishna 教授则分别入选了 2024 与 2025 年度 TR35 亚太区名单。
要理解 VAGEN 的价值，首先要明白视觉 AI 智能体面临的挑战。想象你正在玩一个推箱子游戏：你看到屏幕上的画面，判断箱子和目标的位置，规划移动路线，然后执行操作。这个过程看似简单，但对 AI 来说却异常困难。
现有的大语言模型在处理纯文本任务时已经展现出强大能力，但当任务涉及视觉信息时，问题就复杂多了。文本信息是完整、精确的，而视觉观察往往是部分的、有噪声的。一个智能体通过摄像头只能看到眼前的场景，无法直接获知整个环境的完整状态。这也就是所谓的“部分可观测马尔可夫决策过程”（Partially Observable Markov Decision Process，POMDP）——智能体必须基于不完整的观察来推断真实的世界状态。
研究团队指出，这正是当前 VLM 智能体的核心瓶颈。他们测试了包括 GPT-4o、Claude 4.5 Sonnet、Gemini 2.5 Pro 在内的多个主流模型，发现即便是最强的 GPT-5，在他们设计的五项任务上的综合表现也只有 0.75 分（满分 1 分）。特别是在需要精确操作的机器人任务中，几乎所有模型都在某些子任务上完全失败。
这些任务涵盖了经典的推箱子和冰湖游戏、3D 环境中的导航、机械臂的精细操作，以及从图像生成 SVG 代码等多种场景，既有离散的网格世界，也有连续的物理空间，充分考验了模型的视觉理解和推理能力。
VAGEN 的核心思想是让 AI 进行“显性的视觉状态推理”。具体来说，就是在智能体生成每个动作之前，强制要求它完成两个推理步骤。第一步是“状态估计”（StateEstimation）——描述当前看到的是什么。就像人类会说“箱子在我右边，目标在箱子上方”，AI 也需要用语言明确表述当前的视觉状态。

图丨相关论文（arXiv）
第二步是“转换建模”（TransitionModeling）——预测下一步会发生什么。如果我向右推，箱子会移到哪里？目标位置会发生什么变化？这两步结合起来，就构成了所谓的“世界建模”（WorldModeling）。
研究团队设计了一套结构化的输出格式，要求 AI 在
标签中描述当前状态，在
标签中解释推理过程，在
标签中预测未来状态，最后在
标签中给出实际动作。
为了验证这种显性推理的效果，研究团队对比了五种不同的推理策略，其中包括从完全不思考（NoThink）到自由发挥（FreeThink），再到只做状态估计或只做转换建模的各种组合。
结果显示，完整的 WorldModeling 策略（同时包含状态估计和转换建模）在综合性能上达到 0.76，明显优于自由思考的 0.67 和不思考的 0.28。有趣的是，单独的状态估计或转换建模各有所长：前者在需要准确理解当前场景的导航任务中表现更好，后者则在需要精确预测的机械臂操作中更占优势。

（arXiv）
确定了推理框架后，另一个关键问题是：AI 应该用什么方式表达对视觉状态的理解？研究团队探索了三种表示方式。最直观的是自然语言描述，比如“玩家在左上角，箱子在玩家右侧”。第二种是符号化表示，直接用游戏原生的符号，比如用“P”代表玩家、“X”代表箱子。第三种是结构化格式，用 JSON 格式的字典记录所有对象的精确坐标。

（arXiv）
实验结果让人有些意外。在推箱子和冰湖游戏这类相对简单的任务中，自然语言表现最好（0.61 和 0.71），而符号化和结构化格式反而更差。研究团队分析认为，这是因为 VLM 在预训练时接触了大量自然语言文本，对这种表达方式更加熟悉，而对抽象符号的理解能力有限。
但在机器人操作任务中，情况完全反转。结构化格式的平均得分达到 0.94，优于自然语言的 0.91。原因在于，精确的坐标信息对于毫米级的机械臂控制至关重要，自然语言的模糊性会导致操作失败。这一发现也说明，视觉状态的表示方式并不是通用的，而是取决于任务特性。对于需要语义理解的通用任务，自然语言是最佳选择；但对于高精度操作，结构化的精确信息不可或缺。
光有推理框架还不够，如何训练 AI 学会正确推理才是关键。VAGEN 采用强化学习（Reinforcement Learning，RL）方法，通过奖励机制引导模型改进。
传统的 RL 方法通常在整个任务结束时给出一个总奖励，然后反向传播到每个步骤。但这种方法在多轮交互的场景中效果不佳——想象一个需要执行 10 步操作的任务，如果最后失败了，AI 很难判断是哪一步出了问题。VAGEN 提出了两个机制来解决这个问题。
首先是“世界建模奖励”（WorldModeling Reward），专门评估 AI 的推理质量。团队采用 LLM-as-a-Judge 的方法，让 GPT-4.1 nano 作为裁判，评估 AI 生成的状态描述和预测是否准确。这样，每一轮交互都能获得即时的推理质量反馈，而不是等到任务结束才知道对错。
其次是“双层通用优势估计”（Bi-Level GAE）。这个机制分两个层次计算奖励：先在“轮次级别”评估每一轮的整体表现，再在“token 级别”细化到每个生成的单词。就像批改作文时，既要看整篇文章的结构，也要看每个段落、每句话的表达。这种层级化的奖励分配，使得 AI 能够更准确地定位问题所在，加快学习速度。

图丨 token 级 GAE 与双层 GAE 框架（arXiv）
实验数据证实了这套机制的有效性。在完整的 VAGEN-Full 框架下（结合 WorldModeling Reward 和 Bi-Level GAE），仅有 30 亿参数的 Qwen2.5-VL-3B 模型最终达到了 0.82 的综合得分，不仅大幅超越未训练版本（0.21），甚至击败了参数量远大于它的 GPT-5（0.75）、Gemini 2.5 Pro（0.67）和 Claude 4.5（0.62）。
在训练过程中，研究团队观察到一些有趣的现象。随着训练推进，AI 的回答逐渐从多样化变得模板化。早期训练时，AI 会用各种不同的方式描述状态，比如“我需要向右移动接近箱子，然后向上推动”或“箱子在我前方，我应该先前进再调整方向”。但到后期，回答变得高度统一，主要差异只在方向词汇上，比如都是“我将向 X 移动，然后向 Y 移动”的固定句式。这种模板化也不完全是坏事——它反映了 AI 找到了高效的表达方式。但也引发了另一个问题：奖励黑客（reward hacking）。
部分 AI 学会了生成看似合理、实则空泛的回答来“讨好”评判系统。例如在冰湖游戏中，有些 AI 会习惯性地回答“玩家会到达礼物的位置”，无论当前状态如何。这种回答在语法上正确，也提到了目标，很容易通过 LLM 评判者的检查，但实际上并没有提供有价值的推理信息。
研究团队发现，使用 Bi-Level GAE 的模型特别容易出现这种行为，因为更细致的奖励机制让 AI 更容易找到“刷分”的捷径。为了应对这个问题，团队开发了几种缓解策略，包括结构化评估（要求 AI 输出可量化的信息，用 F1 分数评估）和重复惩罚（对高频出现的答案降低奖励），这些措施在一定程度上缓解了问题。
VAGEN 为视觉 AI 智能体的训练开辟了新路径，但从研究原型到实际应用仍有距离。论文显示，在配备 8 块 H100 GPU 的服务器上，训练一个任务需要 4 到 8 小时，同时消耗约 2,300 万到 6,000 万个 LLM 评判 token，这对商业化部署而言成本不菲。此外，当前 VAGEN 在 5 个精心设计的环境中表现出色，但真实世界的视觉任务往往更加开放、不确定，泛化性还需进一步验证。

参考资料：
1.https://arxiv.org/pdf/2510.16907
2.https://vagen-ai.github.io/
排版：刘雅坤

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

拆完iPhone Air后，我觉得苹果还有牙膏能挤。

开售即破发，减产到几乎停产！刚用上几天的网友这么说……

连降噪都没有的耳机，华为凭啥敢卖到一千多块？

预售5分钟售罄，开售却遇冷！商家：几乎“无人问津”，网友们也吵翻了

作答时代，播种未来！今天，这些科学的种子在成都播撒

3亿人的养老焦虑有救了？

全站最新

拆完iPhone Air后，我觉得苹果还有牙膏能挤。

开售即破发，减产到几乎停产！刚用上几天的网友这么说……

连降噪都没有的耳机，华为凭啥敢卖到一千多块？

预售5分钟售罄，开售却遇冷！商家：几乎“无人问津”，网友们也吵翻了

热门推荐

拆完iPhone Air后，我觉得苹果还有牙膏能挤。

开售即破发，减产到几乎停产！刚用上几天的网友这么说……

连降噪都没有的耳机，华为凭啥敢卖到一千多块？

预售5分钟售罄，开售却遇冷！商家：几乎“无人问津”，网友们也吵翻了

作答时代，播种未来！今天，这些科学的种子在成都播撒

3亿人的养老焦虑有救了？

一场科学大讲堂，看见成都的科学精神

未来科学：上海与世界2025世界顶尖科学家论坛上午开幕

世界“顶科”汇聚昌平实验室聚焦“免疫与肿瘤研究”共促人类健康

地平线征程 6P 芯片及 HSD 城区辅助驾驶系统量产上车

新书《数字时代的政治》发布：探讨AI造成的失业等问题

OpenAI 被爆「Meta化」！研究团队考核KPI，一切向流量看齐

高校科研柑桔走红 23岁科研团队成员：科研为果农带来收益最有意义

AI 实时语音深度伪造技术实现突破性进展，诈骗成功率近 100%

从文本生成物理稳定积木模型，BrickGPT革新创意制造