![]()
这项由约翰斯·霍普金斯大学与法国巴黎理工学院电信学院联合开展的研究,于2026年6月以预印本形式发布,论文编号为arXiv:2606.05009。研究聚焦于一个乍听之下颇为"法律感"的问题:当你把一部复杂的法律法规丢给AI,让它帮你算税、判断移民资格、或者弄清楚航空公司的行李规定时,AI到底应该把整部法规"塞进脑袋"一次性读完,还是应该像一个真正的律师那样,随时翻查相关条文?两种策略的差距,远比你以为的要大得多。
一、一个熟悉却被忽视的难题:法规太长,AI记不住关键的那一条
假设你是一名税务律师,桌上摆着一份厚达数百页的美国联邦税法。你的客户阿丽斯问你:她2017年和丈夫共同申报,年收入36,266美元,要缴多少税?
一个经验老道的律师不会把整部税法从头背到尾,而是会直接翻到适用的条款——比如第1条(d)款关于已婚分别申报的税率表,再去查第63条关于应税收入的定义,最后用计算器算出答案。这个"先找条款,再推理"的过程,正是人类处理复杂规则体系的自然方式。
然而,现有的AI系统在处理这类问题时,走的却是一条截然不同的路:把整部法规、案件事实和问题全部塞进一个超长的提示词,让模型在"一口气"中完成所有工作。这种方式被研究团队称为"直接推理"。问题在于,法规文本往往极其冗长且互相交叉引用,大量条款对于当前具体问题毫不相关,模型很容易在海量文本中找不到真正关键的那几句话,就像你被要求在一座图书馆里找一本特定的书,但不能自由行走,只能从入口一直走到出口,希望书会"自然出现在你面前"。
正因如此,研究团队提出了一套全新的框架,名为"规范性主动推理"(Deontic Agentic Reasoning,简称DAR)。核心思路很简单:不再把法规文本塞进AI的"脑子",而是把它放在一个文件夹里,让AI像真正的律师一样,根据需要随时去翻查。
二、两种截然不同的工作方式:一次性阅读 vs. 按需查阅
研究团队用一个直观的对比来说明两种方式的本质区别。
在"直接推理"模式下,模型收到的是一个巨大的提示词,里面同时包含完整的法规文本、案件事实和问题,模型需要在一次推理中完成"阅读理解 + 逻辑推理 + 数值计算"的全部工作。这就好比让一个学生在闭卷考试中,凭记忆应对一道涉及数百条规则的综合题。
在DAR模式下,情况完全不同。法规文本被存放为一个独立的文件(statute.txt),模型只接收案件事实和问题。当模型需要查阅某个条款时,它可以主动发出指令——比如用grep命令搜索"§63"找到应税收入的定义,用sed命令读取文件的特定行,或者用cat命令查看某一章节。每一次查阅的结果都会被追加到模型的工作记忆中,供后续推理使用。当需要进行数值计算时,模型还可以直接运行Python代码,就像一个律师在旁边开着计算器一样。
这种设计的本质,是将"查阅法规"和"推理判断"这两个任务解耦。模型不再需要在一片汪洋的文本中碰运气,而是可以精准地、按需地提取自己需要的信息。研究团队借鉴了"主动语料库交互"(Direct Corpus Interaction)的思路——这一方法此前已在事实检索任务中被证明有效,但在以"推理"为核心的规范性任务中是否同样有效,此前从未有人系统验证过。
三、测试场地与参赛选手:四类任务,九款模型,三种比较框架
为了让实验结论足够可信,研究团队选择了DeonticBench这个专门为规范性推理设计的评测基准,涵盖四类难度各异的任务。
第一类是SARA数值任务,要求模型根据美国联邦税法计算具体的税款金额,评分标准是精确匹配的准确率,容不得半点误差。第二类是SARA二分类任务,要求模型判断某一法律主张是否成立,用宏平均F1值衡量。第三类是航空行李政策任务,要求模型根据各航空公司的行李收费规定,判断特定情境下应收取的费用,同样以准确率计分。第四类是USCIS移民行政任务,要求模型预测移民上诉案件的最终结果,用宏平均F1值衡量。
参与测试的模型共九款,横跨开源与闭源两大阵营。开源阵营包括来自阿里巴巴的Qwen3.5系列三款(参数量分别为35B、122B、397B)、Qwen3-Coder-480B、Qwen3-235B,以及月之暗面的Kimi K2。闭源阵营则包括OpenAI的GPT-5.1和GPT-5.2(推理努力程度设置为"无"),以及Anthropic的Claude Sonnet 4.5。
比较框架共三种:直接推理(基线)、Terminus-2(一个基础的终端型主动框架,让模型在沙箱环境中通过交互式终端操作文件)、以及Terminus-KIRA(在Terminus-2基础上改进的增强版框架,专门针对模型常见的几种失败模式进行了修复,包括提交不完整工作、在任务未完成时错误地确认完成,以及在获得新信息后无法调整计划等问题)。
为了确保公平,每道题有10分钟的时间预算,超时、解析失败或框架运行错误的试验均计为答错。
四、顶级模型的逆袭:框架加持下,准确率最高飙升30个百分点
实验结果中最引人注目的发现,来自三款闭源顶级模型在数值任务上的表现变化。
以GPT-5.2为例,在直接推理模式下,它在SARA数值任务上的准确率仅有30%。换上Terminus-2框架后,这一数字跳升至51%。而在Terminus-KIRA框架下,它进一步攀升到60%,整整翻了一倍。Claude Sonnet 4.5的轨迹同样令人印象深刻:直接推理下36%,Terminus-KIRA下54%,涨幅接近20个百分点。GPT-5.1本身基础就较强(直接推理54%),在Terminus-KIRA下进一步升至69%。
航空行李任务则呈现出另一番景象。GPT-5.1在直接推理下已经表现出色(86%),框架加持后依然保持在86%到89%的高位,可以说近乎饱和。GPT-5.2则从直接推理下的2%(几乎完全失败),在Terminus-KIRA下跃升至36%,这个涨幅简直是天壤之别。
在分类任务上,顶级模型的表现也整体呈上升趋势。比如在SARA二分类任务中,Qwen3.5-397B(开源中最强的一款)在Terminus-KIRA下从78%提升到91%,Kimi K2从68%提升到89%,均创下各自的最高分。
研究团队用"被误管的天才假说"来解释这一现象:这些顶级模型其实具备足够的法规阅读能力,只是在一次性塞入大量文本的传统模式下,这种能力无法得到充分发挥。框架的作用,正是让它们能够以自己最擅长的方式工作——主动查阅,而非被动接收。
五、开源模型的崩塌:框架反而成了"加速错误"的催化剂
然而,同样的框架套在开源模型身上,结果几乎完全相反。
Qwen3.5-35B在直接推理下的SARA数值准确率是34%,放进Terminus-2后降到23%,进入Terminus-KIRA后更是跌至11%,比起初下降了超过20个百分点。Qwen3.5-122B的情况类似:直接推理37%,Terminus-2下20%,Terminus-KIRA下仍然是20%,没有任何改善。
航空行李任务更是一场灾难。几乎所有开源模型在直接推理下都有一些非零的基础表现(比如Qwen3.5-35B有14%,Qwen3.5-122B有15%),但一旦进入Terminus-2或Terminus-KIRA,准确率几乎全部归零。Qwen3-Coder-480B、Qwen3-235B、Kimi K2在这两个框架下的航空任务准确率均为0或接近0。
为什么会这样?研究团队给出的解释是:框架为模型提供了"多轮交互"的机会,但能否善用这个机会,取决于模型是否具备足够的判断力。对于顶级模型而言,多轮交互意味着能纠错、能精准检索;对于较弱的模型而言,多轮交互却变成了一种"信心放大器"——模型会在错误的推理路径上越走越深,用更多的文字和更多的步骤,坚定地得出同一个错误答案,而不是聪明地及时叫停。
这一现象在token消耗数据上得到了直观印证。在Terminus-2框架下,Qwen3.5-122B平均每道题消耗40.1万个token,Qwen3-235B消耗30.3万个。相比之下,GPT-5.1平均只消耗5.5万个,GPT-5.2消耗3.1万个——开源模型的消耗量是顶级闭源模型的4倍以上。用更多的计算,换来更差的答案,这恰恰是"框架放大能力"这一论点的最有力佐证。
六、三款额外框架与两种特殊方案的测试
除了Terminus-2和Terminus-KIRA,研究团队还补充测试了Claude Code和Codex CLI这两款框架,以及一种被称为"递归语言模型"(Recursive Language Models,简称RLM)的特殊架构。
Claude Code的表现出乎意料地给力,尤其是对开源模型而言。在Qwen系列模型中,Claude Code在SARA数值任务上的表现,有三款模型都是所有框架中最好的(Qwen3.5-397B是例外,它在Terminus-KIRA下更强)。更关键的是,Claude Code是唯一能让开源模型在航空行李任务上恢复一定准确率的框架——Qwen3.5-35B、122B、397B、Coder-480B在Claude Code下的航空准确率分别为8.8%、11.3%、10%、5%,虽然依然偏低,但至少不是零。然而,即便如此,直接推理仍然是许多弱模型在部分任务上的最强基线,Claude Code并没有对所有情况都带来提升。
Codex CLI的表现则比较平淡。对大多数模型来说,它的SARA数值准确率低于其他可用框架,航空任务上开源模型同样接近归零。研究团队将其解读为"Codex在数值任务上并没有在基础模型之上增加太多结构",行为上和直接推理差距不大。
递归语言模型的测试结果则有些出人意料地令人失望。这种架构由一个"监督者"模型和一个"工人"模型组成,两者可以是同一个模型,通过最多10轮迭代、50次工人调用来协作完成任务。测试结果显示,RLM对几乎所有模型的SARA数值和航空任务都造成了严重拖累。以GPT-5.1为例,直接推理下航空准确率86%、Terminus-KIRA下89%,但在RLM下骤降至12.5%;SARA数值则从69%跌至11%。Qwen3-Coder-480B呈现出完全相同的崩溃模式。唯一表现相对稳健的是SARA二分类任务,GPT-5.1在RLM下的F1值(68.3%)与直接推理(70%)相差不大,Qwen3-Coder-480B甚至略有提升(从59.1%升至69.7%)。
七、错误分析:超时是真正的元凶,而非模型本身
研究团队对所有失败案例进行了细致的分类统计,将错误分为三种:超时(模型在10分钟内未能给出答案)、运行时错误(框架自身出现故障)和解析失败(模型输出格式不符合要求)。
统计结果揭示了一个有趣的规律:闭源顶级模型在所有三个框架下的综合错误率只有0.7%,几乎没有运行时错误或解析失败,仅有极少数超时发生在Terminus-KIRA框架下。相比之下,开源模型的综合错误率高达12.1%,是闭源模型的约17倍。在这些错误中,超时占了绝大多数(10.6%),解析失败次之(1.5%),运行时错误几乎可以忽略不计。
更值得关注的是,错误率随框架复杂度的增加而显著上升。Terminus-2框架下,开源模型的错误率为3.6%;Codex CLI下升至11.8%;Terminus-KIRA下则飙升至27.8%。这意味着,框架越复杂、交互轮次越多,开源模型就越容易陷入无止境的循环而超时。研究团队的结论是:开源模型表现不稳定的根本原因,是它们的推理速度较慢、生成文本较长,导致频繁超出时间限制,而非框架本身或模型架构的根本性缺陷。
八、研究的局限与未来的方向
研究团队对自身工作的局限性保持了充分的清醒认识。
在规模上,当前的DAR方案把整部法规存放为单一文件,依赖模型通过grep和sed等工具自行导航。对于DeonticBench中的法规而言,这是可行的,但面对真正庞大的规则体系——比如完整的美国《国内税收法典》或多司法管辖区的综合监管文件——即便是顶级模型也需要翻阅大量文件内容才能定位相关条款,消耗极多的token。一个更具扩展性的设计,应该将DAR与高效的检索系统结合起来,比如分层法规查找或学习型章节级检索,在主动推理开始之前就先提取出相关规则集。
在覆盖范围上,所有实验都基于DeonticBench这一个基准,涵盖美国联邦税法、移民行政和航空行李政策三个领域。真实世界的规范性推理远不止于此,研究结论的普适性需要在更广泛的规则推理基准上加以验证。
在框架设计上,研究评测的四个框架都是为通用主动任务设计的,并没有针对法规推理进行专门优化。一个专门为规范性推理设计的框架——比如内置条款感知导航功能或自动交叉引用工具——可能会为弱模型带来截然不同的结果。Meta-Harness这类通过外层搜索自动发现任务特定框架的元框架,或许是探索这一方向的一条可行路径。
此外,实验中GPT-5.1和GPT-5.2的推理努力程度被设置为"无",更高的推理努力设置可能会显著改变顶级模型的表现,从而影响顶级与开源模型之间差距的大小。
归根结底,这项研究告诉我们的核心信息,其实并不复杂:给AI一部法规让它"查阅",比让它"背诵"更聪明——但前提是这个AI本身足够聪明,知道怎么查、查什么、什么时候停下来。对于今天最顶级的闭源模型,这套方案能带来真实可观的提升;对于能力稍弱的开源模型,同样的工具却可能适得其反,让它们用更多时间、更多算力,更自信地犯同样的错误。
这种"能力门槛效应"对所有计划在高风险领域(税务、法律、移民)部署AI系统的从业者来说,都是一个值得认真对待的警示:工具增强了能力,但无法创造能力。无论是否配备了主动推理框架,当前的语言模型在这些任务上的准确率依然远称不上可以信赖,它们是研究工具,而不是人类专业人士的替代品。
有兴趣深入探索这项研究细节的读者,可以通过论文编号arXiv:2606.05009查阅完整原文。
Q&A
Q1:DAR(规范性主动推理)和传统的直接推理有什么区别?
A:传统直接推理是把整部法规文本和问题一起塞进AI的提示词,让模型一次性完成所有工作。DAR则把法规存成独立文件,AI根据需要随时用grep、sed等工具主动查阅相关条款,类似于律师翻查法规而非背诵整部法典。核心区别在于:一个是被动接收大量文本,一个是主动按需检索特定信息。
Q2:为什么开源模型在DAR框架下反而表现更差?
A:开源模型能力相对有限,给它多轮交互的机会反而成了负担。它们不知道何时停下来,会在错误的推理路径上越走越深,生成大量文字却得出同样的错误答案。数据上看,开源模型在Terminus-2框架下每题平均消耗30-40万token,是顶级模型的4倍以上,但准确率却更低,大量试验因超出10分钟时限而直接计为答错。
Q3:DeonticBench测试的四类任务分别是什么?
A:DeonticBench包含四类任务:一是SARA数值任务,根据美国税法计算精确税款;二是SARA二分类任务,判断某法律主张是否成立;三是航空行李任务,判断特定场景下的行李收费;四是USCIS移民任务,预测移民上诉案件结果。前两类来自美国联邦税法,后两类分别来自航空公司政策和移民行政法规。





京公网安备 11011402013531号