大语言模型(Large Language Model, LLM)在复杂推理任务中表现卓越。借助链式思维(Chain-of-Thought, CoT),LLM 能够将复杂问题分解为简单步骤,充分探索解题思路并得出正确答案。LLM 已在多个基准上展现出优异的推理能力,尤其是数学推理和代码生成。
然而,当前针对 LLM 推理能力的研究主要集中于被动推理(Passive Reasoning, PR),即在提供完整信息的前提下让模型进行推理。相比之下,对信息不完备场景下模型推理能力的研究明显不足。
这类场景在实际应用中十分常见,例如侦探需要通过询问和走访获取破案线索,医生需要通过问诊收集诊断依据。我们将这类需要主动获取信息的推理称为主动推理(Active Reasoning, AR)
目前关于 AR 的方法和基准研究较少,探索不足,制约了 LLM 在复杂现实场景中的应用。如图 1 所示,被动推理是直接从给定的充分信息中求解,而主动推理则需要从不完整的信息出发,通过多轮交互来获取关键线索,最终得出结论。可以说,被动推理的核心是找到答案,而主动推理的核心是提出正确的问题。
图 1 被动推理(左)与主动推理(右)的示意图。
尽管主动推理对实现通用人工智能至关重要,但目前学术界对此关注甚少,LLM 在这方面的能力也亟待一个系统性的评估。为此,我们提出了 AR-Bench,一个旨在全面评估大模型主动推理能力的基准,并进行了一系列深入的实验分析。
我们的主要贡献有如下三点:
新问题:我们提出了主动推理这一亟待研究的新问题,并系统定义了其相对于被动推理的核心挑战。新基准:我们提出了专门用于评估主动推理能力的基准 AR-Bench ,系统的测试模型在复杂场景中的主动推理能力。新发现:我们通过在 AR-Bench 上的全面评测,揭示了当前顶尖 LLM 在主动推理方面的普遍且严重的短板,并指出了未来的研究方向。
接下来,我们将简要介绍 TMLR 课题组和斯坦福大学合作的 AR-Bench,并展示我们从广泛地测试实验中提取出来的重要发现,相关论文已发表于 ICML 2025 会议。
论文标题:From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information?论文链接:https://arxiv.org/abs/2506.08295代码链接:https://github.com/tmlr-group/AR-Bench
新问题:主动推理
传统的 LLM 推理研究,如 CoT,大多遵循被动推理的范式。在这种范式下,模型接收一个包含所有必要信息的问题,然后逐步地推导出最终答案。然而,现实中许多场景都存在着信息不完整的情况。以医疗诊断为例,医生需要通过与患者互动主动获取症状、病史等关键信息,而非被动接收完整数据。这类信息不完整的场景要求 LLM 通过提问、信息探索和动态交互来补充缺失信息,最终完成推理任务。
我们将这种推理范式定义为主动推理。在 AR 范式下,模型仅获得部分信息,并且必须通过与外部环境(如数据库、API 或人类用户)的交互来主动提问,以获取缺失的关键信息来解决问题。AR 综合了提问、检索和迭代推理,是一个更全面、更动态、更具挑战性的问题解决框架。
对主动推理问题的探索,有助于我们更好地理解和提升 LLM 在真实、复杂场景下的智能水平,推动其从一个被动的文本处理器,转变为一个能够主动解决问题的人工智能体。
图 2 PR 要求模型通过一步步推理从给定的问题得到正确答案,而 AR 要求模型分析当前任务,提出一系列关键的问题来获取重要信息,并利用这些信息得到正确的答案。本质上,PR 的核心要求是根据问题得到正确答案,而 AR 的核心要求是提出正确的问题来获取关键的信息。
新基准:AR-Bench
为了系统地评估和衡量 LLM 的主动推理能力,我们构建了 AR-Bench (Active Reasoning Benchmark)。AR-Bench 旨在模拟真实世界中的信息获取场景,它包含三个不同类型的任务,分别对应三种核心的推理能力:
侦探案件 (Detective Cases, DC):模拟刑事案件调查,模型需要通过提问来搜集线索、分析案情,考验其常识推理能力。
情景谜题 (Situation Puzzles, SP):也被称为 「海龟汤」,模型需要通过 「是 / 否」 问题来揭开一个看似矛盾或离奇情景背后的真相,考验其逻辑推理和发散思维能力。
数字猜谜 (Guessing Numbers, GN):经典的主动推理游戏,模型需要根据反馈猜测一个由不重复数字组成的四位数,考验其符号推理能力。
图 3 AR-Bench 中三种任务的示例。
我们的评估框架采用多轮交互范式,其中提问方 LLM 与扮演信息源的 「回答者」 智能体进行动态对话。该评估体系包含两个维度:
1)结果评估:在 DC 和 GN 任务中判断模型结论与标准答案的匹配度,对于开放式问题 SP 则采用 F1-Score 衡量回答相似度;
2)过程评估:基于预设关键问题(Key Questions),通过 LLM-as-a-judge 方法以交互轮次为粒度评估对话是否有效解决关键问题(适用于 DC 和 SP ),而在 GN 任务中则直接计算反馈信息的数字准确率作为过程评分指标。这一综合评估方案不仅关注最终答案的正确性,更重视模型在交互过程中提出问题的质量和信息获取的有效性,从而全面刻画模型的主动推理能力。
新发现:
大模型主动推理能力严重不足
我们在 AR-Bench 上对包括 GPT-4o 在内的多个先进 LLM,以及基于 prompting 和基于训练的推理方法进行了广泛测试。
实验结果(图 4,5)表明:目前的语言模型和推理方法都无法有效解决AR-Bench 提出的问题,我们发现:
1. 即使是最先进的 GPT-4o 模型也只能在 GN 任务上达到 35% 的准确率。
2. 细粒度的指导和基于搜索的方法 (ToT)只能提供非常有限的性能提升。
3. 基于训练的方法(SFT, DPO)甚至在一些任务上使模型性能变差。
图 4 不同模型在 AR-Bench 上的性能对比。
图 5 Llama-3.1-8B 和 Llama-3.1-70B 使用不同方法在 AR-Bench 上的性能对比。
我们还测试了两个先进的主动推理方法(Proactive CoT 和 Uncertanty of Thoughts)以及人类在 AR-Bench 上的表现(见图 6)。我们发现:
1. 即使是目前提出的先进的主动推理方法也无法提升模型在 AR-Bench 上的性能。
2. 人类在 AR-Bench 上的推理表现显著优于目前先进的语言模型。
图 6(左)先进的主动推理方法在 AR-Bench 上的性能表现,(右)人类在 AR-Bench 上的表现和 GPT-4o 对比。
为了更细致的研究语言模型在主动推理上的表现,理解目前模型和方法的不足,我们测量了模型在主动推理交互过程中模型对该任务的解决程度(见图 7,8),我们发现:
1. 在交互过程中,模型的收益呈现递减趋势,在后期问题质量低下
2. 较弱的模型问出的问题质量偏低,并且无法对交互机会进行有效利用
3. 较强的模型能够利用多轮交互机会,持续获得有用的信息
4. 基于搜索的方法在 AR-Bench 中依赖于每一轮评估问题质量的验证器的可靠性,表现在对 GN 任务有显著提升 (验证器基于数值反馈构建,简单可靠),而在 SP 任务下无法提升推理表现 (验证器基于自然语言反馈构建,复杂且相对不可靠)。
图 7 Llama-3.1-8B 和 Llama-3.1-70B 使用不同方法在 AR-Bench 推理中过程分的变化趋势。
图 8 不同模型在 AR-Bench 各任务上推理中过程分的变化趋势。
我们还进行在 AR-Bench 进行了三方面的消融实验(见图 9,10,11):
1. 固定交互信息,探究不同模型的推理能力的表现。
2. 延长交互的轮数,给予模型更多的机会进行信息获取,探究模型的表现变化。
3. 探究在实验中扮演回答者的模型的可靠性。
我们发现:
1. 更大的模型能够在固定的记录中提取出更多的有效信息。
2. 简单延长交互轮数无法完全解决主动推理任务。
3. 面对主模型提出的问题,回答者能够给出可靠的回复。
图 9 使用 Llama-3.1-70B 和 Llama-3.1-405B 在交互过程中获得的交互记录测试不同模型在给定信息的情况下给出正确结论的能力。
图 10 延长交互轮数后,比较模型的推理表现变化。
图 11 回答者模型的可靠性验证。
为更直观评估模型在主动推理中的表现,我们系统分析了不同任务中的典型错误模式(见图 12),并通过具体案例深入剖析了模型的失误原因(见图 13)。
我们发现:
1. 模型会问出宽泛,不具体的问题。
2. 模型会问出没有帮助的问题。
3. 模型在主动推理中会频繁出现时间线误解,忽视证据,强行提出未经验证的假设,以及没有完全利用符号反馈等典型问题。
图 12 GPT-4o 模型在不同任务下的推理正确和推理错误的案例分析。
图 13 Llama-3.1-8B 和 GPT-4o 在不同任务下的出现的典型错误统计。
总结
我们的工作系统地定义了主动推理这一重要问题,并构建了 AR-Bench 作为社群的评估工具。我们的实验结果清晰地表明,当前的大语言模型虽然在被动推理上能力强大,但在更贴近现实的主动推理场景下却举步维艰。
展望未来工作,我们认为 AR-Bench 存在以下拓展方向:
提升模型的主动推理能力:
1. 采集小规模但是高质量的微调数据集
2. 将强化学习推理方法(PPO, GRPO, DAPO)和推理模型适配到主动推理
3. 为搜索方法开发更先进可靠的验证器,以提升搜索方法在主动推理上的表现
将 AR-Bench 拓展到更多的任务和领域:
1. 医疗场景和定制化代理
2. 多轮检索增强生成和工具调用
3. 模拟真实环境和多模态场景,例如机器人和游戏
更多的实验分析和技术细节,请参阅我们的论文及源码,我们也将持续更新本工作的内容。
我们希望 AR-Bench 能够激发更多关于主动推理的研究,推动开发出能够主动提问、高效探索、真正解决现实世界问题的人工智能。非常感谢大家关注我们的工作!
课题组介绍
香港浸会大学可信机器学习和推理课题组 (TMLR Group) 由多名青年教授、博士后研究员、博士生、访问博士生和研究助理共同组成,课题组隶属于理学院计算机系。课题组专攻可信基础模型、可信表征学习、基于因果推理的可信学习等相关的算法,理论和系统设计以及在自然科学上的应用,具体研究方向和相关成果详见本组 Github https://github.com/tmlr-group。
课题组由政府科研基金以及工业界科研基金资助,如香港研究资助局新进学者协作研究补助金、优配研究金和杰出青年学者计划,国家自然科学基金面上项目和青年项目,以及微软、英伟达、字节跳动、百度、阿里、腾讯等企业的教职科研基金。青年教授和资深研究员手把手带,GPU 计算资源充足,长期招收多名博士后研究员、博士生、研究助理和研究实习生。此外,本组也欢迎自费的访问博士后研究员、博士生和研究助理申请,访问至少 3-6 个月,支持远程访问。有兴趣的同学请发送个人简历和初步研究计划到邮箱 bhanml@comp.hkbu.edu.hk。