约翰斯·霍普金斯大学让AI"查阅法规"而非死记硬背,准确率飙升30%

IP属地中国·北京 科技行者 时间：2026-06-10 22:32:09

这项由约翰斯·霍普金斯大学与法国巴黎理工学院电信学院联合开展的研究，于2026年6月以预印本形式发布，论文编号为arXiv:2606.05009。研究聚焦于一个乍听之下颇为"法律感"的问题：当你把一部复杂的法律法规丢给AI，让它帮你算税、判断移民资格、或者弄清楚航空公司的行李规定时，AI到底应该把整部法规"塞进脑袋"一次性读完，还是应该像一个真正的律师那样，随时翻查相关条文？两种策略的差距，远比你以为的要大得多。
一、一个熟悉却被忽视的难题：法规太长，AI记不住关键的那一条
假设你是一名税务律师，桌上摆着一份厚达数百页的美国联邦税法。你的客户阿丽斯问你：她2017年和丈夫共同申报，年收入36,266美元，要缴多少税？
一个经验老道的律师不会把整部税法从头背到尾，而是会直接翻到适用的条款——比如第1条（d）款关于已婚分别申报的税率表，再去查第63条关于应税收入的定义，最后用计算器算出答案。这个"先找条款，再推理"的过程，正是人类处理复杂规则体系的自然方式。
然而，现有的AI系统在处理这类问题时，走的却是一条截然不同的路：把整部法规、案件事实和问题全部塞进一个超长的提示词，让模型在"一口气"中完成所有工作。这种方式被研究团队称为"直接推理"。问题在于，法规文本往往极其冗长且互相交叉引用，大量条款对于当前具体问题毫不相关，模型很容易在海量文本中找不到真正关键的那几句话，就像你被要求在一座图书馆里找一本特定的书，但不能自由行走，只能从入口一直走到出口，希望书会"自然出现在你面前"。
正因如此，研究团队提出了一套全新的框架，名为"规范性主动推理"（Deontic Agentic Reasoning，简称DAR）。核心思路很简单：不再把法规文本塞进AI的"脑子"，而是把它放在一个文件夹里，让AI像真正的律师一样，根据需要随时去翻查。
二、两种截然不同的工作方式：一次性阅读 vs. 按需查阅
研究团队用一个直观的对比来说明两种方式的本质区别。
在"直接推理"模式下，模型收到的是一个巨大的提示词，里面同时包含完整的法规文本、案件事实和问题，模型需要在一次推理中完成"阅读理解 + 逻辑推理 + 数值计算"的全部工作。这就好比让一个学生在闭卷考试中，凭记忆应对一道涉及数百条规则的综合题。
在DAR模式下，情况完全不同。法规文本被存放为一个独立的文件（statute.txt），模型只接收案件事实和问题。当模型需要查阅某个条款时，它可以主动发出指令——比如用grep命令搜索"§63"找到应税收入的定义，用sed命令读取文件的特定行，或者用cat命令查看某一章节。每一次查阅的结果都会被追加到模型的工作记忆中，供后续推理使用。当需要进行数值计算时，模型还可以直接运行Python代码，就像一个律师在旁边开着计算器一样。
这种设计的本质，是将"查阅法规"和"推理判断"这两个任务解耦。模型不再需要在一片汪洋的文本中碰运气，而是可以精准地、按需地提取自己需要的信息。研究团队借鉴了"主动语料库交互"（Direct Corpus Interaction）的思路——这一方法此前已在事实检索任务中被证明有效，但在以"推理"为核心的规范性任务中是否同样有效，此前从未有人系统验证过。
三、测试场地与参赛选手：四类任务，九款模型，三种比较框架
为了让实验结论足够可信，研究团队选择了DeonticBench这个专门为规范性推理设计的评测基准，涵盖四类难度各异的任务。
第一类是SARA数值任务，要求模型根据美国联邦税法计算具体的税款金额，评分标准是精确匹配的准确率，容不得半点误差。第二类是SARA二分类任务，要求模型判断某一法律主张是否成立，用宏平均F1值衡量。第三类是航空行李政策任务，要求模型根据各航空公司的行李收费规定，判断特定情境下应收取的费用，同样以准确率计分。第四类是USCIS移民行政任务，要求模型预测移民上诉案件的最终结果，用宏平均F1值衡量。
参与测试的模型共九款，横跨开源与闭源两大阵营。开源阵营包括来自阿里巴巴的Qwen3.5系列三款（参数量分别为35B、122B、397B）、Qwen3-Coder-480B、Qwen3-235B，以及月之暗面的Kimi K2。闭源阵营则包括OpenAI的GPT-5.1和GPT-5.2（推理努力程度设置为"无"），以及Anthropic的Claude Sonnet 4.5。
比较框架共三种：直接推理（基线）、Terminus-2（一个基础的终端型主动框架，让模型在沙箱环境中通过交互式终端操作文件）、以及Terminus-KIRA（在Terminus-2基础上改进的增强版框架，专门针对模型常见的几种失败模式进行了修复，包括提交不完整工作、在任务未完成时错误地确认完成，以及在获得新信息后无法调整计划等问题）。
为了确保公平，每道题有10分钟的时间预算，超时、解析失败或框架运行错误的试验均计为答错。
四、顶级模型的逆袭：框架加持下，准确率最高飙升30个百分点
实验结果中最引人注目的发现，来自三款闭源顶级模型在数值任务上的表现变化。
以GPT-5.2为例，在直接推理模式下，它在SARA数值任务上的准确率仅有30%。换上Terminus-2框架后，这一数字跳升至51%。而在Terminus-KIRA框架下，它进一步攀升到60%，整整翻了一倍。Claude Sonnet 4.5的轨迹同样令人印象深刻：直接推理下36%，Terminus-KIRA下54%，涨幅接近20个百分点。GPT-5.1本身基础就较强（直接推理54%），在Terminus-KIRA下进一步升至69%。
航空行李任务则呈现出另一番景象。GPT-5.1在直接推理下已经表现出色（86%），框架加持后依然保持在86%到89%的高位，可以说近乎饱和。GPT-5.2则从直接推理下的2%（几乎完全失败），在Terminus-KIRA下跃升至36%，这个涨幅简直是天壤之别。
在分类任务上，顶级模型的表现也整体呈上升趋势。比如在SARA二分类任务中，Qwen3.5-397B（开源中最强的一款）在Terminus-KIRA下从78%提升到91%，Kimi K2从68%提升到89%，均创下各自的最高分。
研究团队用"被误管的天才假说"来解释这一现象：这些顶级模型其实具备足够的法规阅读能力，只是在一次性塞入大量文本的传统模式下，这种能力无法得到充分发挥。框架的作用，正是让它们能够以自己最擅长的方式工作——主动查阅，而非被动接收。
五、开源模型的崩塌：框架反而成了"加速错误"的催化剂
然而，同样的框架套在开源模型身上，结果几乎完全相反。
Qwen3.5-35B在直接推理下的SARA数值准确率是34%，放进Terminus-2后降到23%，进入Terminus-KIRA后更是跌至11%，比起初下降了超过20个百分点。Qwen3.5-122B的情况类似：直接推理37%，Terminus-2下20%，Terminus-KIRA下仍然是20%，没有任何改善。
航空行李任务更是一场灾难。几乎所有开源模型在直接推理下都有一些非零的基础表现（比如Qwen3.5-35B有14%，Qwen3.5-122B有15%），但一旦进入Terminus-2或Terminus-KIRA，准确率几乎全部归零。Qwen3-Coder-480B、Qwen3-235B、Kimi K2在这两个框架下的航空任务准确率均为0或接近0。
为什么会这样？研究团队给出的解释是：框架为模型提供了"多轮交互"的机会，但能否善用这个机会，取决于模型是否具备足够的判断力。对于顶级模型而言，多轮交互意味着能纠错、能精准检索；对于较弱的模型而言，多轮交互却变成了一种"信心放大器"——模型会在错误的推理路径上越走越深，用更多的文字和更多的步骤，坚定地得出同一个错误答案，而不是聪明地及时叫停。
这一现象在token消耗数据上得到了直观印证。在Terminus-2框架下，Qwen3.5-122B平均每道题消耗40.1万个token，Qwen3-235B消耗30.3万个。相比之下，GPT-5.1平均只消耗5.5万个，GPT-5.2消耗3.1万个——开源模型的消耗量是顶级闭源模型的4倍以上。用更多的计算，换来更差的答案，这恰恰是"框架放大能力"这一论点的最有力佐证。
六、三款额外框架与两种特殊方案的测试
除了Terminus-2和Terminus-KIRA，研究团队还补充测试了Claude Code和Codex CLI这两款框架，以及一种被称为"递归语言模型"（Recursive Language Models，简称RLM）的特殊架构。
Claude Code的表现出乎意料地给力，尤其是对开源模型而言。在Qwen系列模型中，Claude Code在SARA数值任务上的表现，有三款模型都是所有框架中最好的（Qwen3.5-397B是例外，它在Terminus-KIRA下更强）。更关键的是，Claude Code是唯一能让开源模型在航空行李任务上恢复一定准确率的框架——Qwen3.5-35B、122B、397B、Coder-480B在Claude Code下的航空准确率分别为8.8%、11.3%、10%、5%，虽然依然偏低，但至少不是零。然而，即便如此，直接推理仍然是许多弱模型在部分任务上的最强基线，Claude Code并没有对所有情况都带来提升。
Codex CLI的表现则比较平淡。对大多数模型来说，它的SARA数值准确率低于其他可用框架，航空任务上开源模型同样接近归零。研究团队将其解读为"Codex在数值任务上并没有在基础模型之上增加太多结构"，行为上和直接推理差距不大。
递归语言模型的测试结果则有些出人意料地令人失望。这种架构由一个"监督者"模型和一个"工人"模型组成，两者可以是同一个模型，通过最多10轮迭代、50次工人调用来协作完成任务。测试结果显示，RLM对几乎所有模型的SARA数值和航空任务都造成了严重拖累。以GPT-5.1为例，直接推理下航空准确率86%、Terminus-KIRA下89%，但在RLM下骤降至12.5%；SARA数值则从69%跌至11%。Qwen3-Coder-480B呈现出完全相同的崩溃模式。唯一表现相对稳健的是SARA二分类任务，GPT-5.1在RLM下的F1值（68.3%）与直接推理（70%）相差不大，Qwen3-Coder-480B甚至略有提升（从59.1%升至69.7%）。
七、错误分析：超时是真正的元凶，而非模型本身
研究团队对所有失败案例进行了细致的分类统计，将错误分为三种：超时（模型在10分钟内未能给出答案）、运行时错误（框架自身出现故障）和解析失败（模型输出格式不符合要求）。
统计结果揭示了一个有趣的规律：闭源顶级模型在所有三个框架下的综合错误率只有0.7%，几乎没有运行时错误或解析失败，仅有极少数超时发生在Terminus-KIRA框架下。相比之下，开源模型的综合错误率高达12.1%，是闭源模型的约17倍。在这些错误中，超时占了绝大多数（10.6%），解析失败次之（1.5%），运行时错误几乎可以忽略不计。
更值得关注的是，错误率随框架复杂度的增加而显著上升。Terminus-2框架下，开源模型的错误率为3.6%；Codex CLI下升至11.8%；Terminus-KIRA下则飙升至27.8%。这意味着，框架越复杂、交互轮次越多，开源模型就越容易陷入无止境的循环而超时。研究团队的结论是：开源模型表现不稳定的根本原因，是它们的推理速度较慢、生成文本较长，导致频繁超出时间限制，而非框架本身或模型架构的根本性缺陷。
八、研究的局限与未来的方向
研究团队对自身工作的局限性保持了充分的清醒认识。
在规模上，当前的DAR方案把整部法规存放为单一文件，依赖模型通过grep和sed等工具自行导航。对于DeonticBench中的法规而言，这是可行的，但面对真正庞大的规则体系——比如完整的美国《国内税收法典》或多司法管辖区的综合监管文件——即便是顶级模型也需要翻阅大量文件内容才能定位相关条款，消耗极多的token。一个更具扩展性的设计，应该将DAR与高效的检索系统结合起来，比如分层法规查找或学习型章节级检索，在主动推理开始之前就先提取出相关规则集。
在覆盖范围上，所有实验都基于DeonticBench这一个基准，涵盖美国联邦税法、移民行政和航空行李政策三个领域。真实世界的规范性推理远不止于此，研究结论的普适性需要在更广泛的规则推理基准上加以验证。
在框架设计上，研究评测的四个框架都是为通用主动任务设计的，并没有针对法规推理进行专门优化。一个专门为规范性推理设计的框架——比如内置条款感知导航功能或自动交叉引用工具——可能会为弱模型带来截然不同的结果。Meta-Harness这类通过外层搜索自动发现任务特定框架的元框架，或许是探索这一方向的一条可行路径。
此外，实验中GPT-5.1和GPT-5.2的推理努力程度被设置为"无"，更高的推理努力设置可能会显著改变顶级模型的表现，从而影响顶级与开源模型之间差距的大小。
归根结底，这项研究告诉我们的核心信息，其实并不复杂：给AI一部法规让它"查阅"，比让它"背诵"更聪明——但前提是这个AI本身足够聪明，知道怎么查、查什么、什么时候停下来。对于今天最顶级的闭源模型，这套方案能带来真实可观的提升；对于能力稍弱的开源模型，同样的工具却可能适得其反，让它们用更多时间、更多算力，更自信地犯同样的错误。
这种"能力门槛效应"对所有计划在高风险领域（税务、法律、移民）部署AI系统的从业者来说，都是一个值得认真对待的警示：工具增强了能力，但无法创造能力。无论是否配备了主动推理框架，当前的语言模型在这些任务上的准确率依然远称不上可以信赖，它们是研究工具，而不是人类专业人士的替代品。
有兴趣深入探索这项研究细节的读者，可以通过论文编号arXiv:2606.05009查阅完整原文。
Q&A
Q1：DAR（规范性主动推理）和传统的直接推理有什么区别？
A：传统直接推理是把整部法规文本和问题一起塞进AI的提示词，让模型一次性完成所有工作。DAR则把法规存成独立文件，AI根据需要随时用grep、sed等工具主动查阅相关条款，类似于律师翻查法规而非背诵整部法典。核心区别在于：一个是被动接收大量文本，一个是主动按需检索特定信息。
Q2：为什么开源模型在DAR框架下反而表现更差？
A：开源模型能力相对有限，给它多轮交互的机会反而成了负担。它们不知道何时停下来，会在错误的推理路径上越走越深，生成大量文字却得出同样的错误答案。数据上看，开源模型在Terminus-2框架下每题平均消耗30-40万token，是顶级模型的4倍以上，但准确率却更低，大量试验因超出10分钟时限而直接计为答错。
Q3：DeonticBench测试的四类任务分别是什么？
A：DeonticBench包含四类任务：一是SARA数值任务，根据美国税法计算精确税款；二是SARA二分类任务，判断某法律主张是否成立；三是航空行李任务，判断特定场景下的行李收费；四是USCIS移民任务，预测移民上诉案件结果。前两类来自美国联邦税法，后两类分别来自航空公司政策和移民行政法规。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

达姆施塔特工业大学用"翻译"给德语AI喂了725亿个好词

上海交大团队揭示：让AI扮演医生，顶级模型竟只答对六成题

约翰斯·霍普金斯大学让AI"查阅法规"而非死记硬背,准确率飙升30%

复旦大学与罗切斯特大学：AI大模型在风险决策中的"表面功夫"

瑞士苏黎世联邦理工学院研究团队让3D场景重建效率飙升33倍

Stability AI教会AI"拆解"图片：让模型自己学会把照片分层

全站最新

达姆施塔特工业大学用"翻译"给德语AI喂了725亿个好词

上海交大团队揭示：让AI扮演医生，顶级模型竟只答对六成题

约翰斯·霍普金斯大学让AI"查阅法规"而非死记硬背,准确率飙升30%

复旦大学与罗切斯特大学：AI大模型在风险决策中的"表面功夫"

热门推荐

菜鸟上线美国两大专线，助力中国制造“快”“省”出海

达姆施塔特工业大学用"翻译"给德语AI喂了725亿个好词

上海交大团队揭示：让AI扮演医生，顶级模型竟只答对六成题

约翰斯·霍普金斯大学让AI"查阅法规"而非死记硬背,准确率飙升30%

复旦大学与罗切斯特大学：AI大模型在风险决策中的"表面功夫"

瑞士苏黎世联邦理工学院研究团队让3D场景重建效率飙升33倍

Stability AI教会AI"拆解"图片：让模型自己学会把照片分层

促成巴菲特投资，破局全球化，她不只是王传福妻子，还是比亚迪发展史上的关键人物

纽约大学团队发现：AI图像编辑的"软肋"

首个手语数字人“国标”发布，成都企业深度参与

清华大学提出"Agent libOS"：给AI智能体装上一套安全"操作系统"

北京交通大学等多所高校用一堆随机数字教会了AI识别猫狗

英国金斯顿大学团队提出的智能拼图新方案

走进细菌真菌感染领域的“黄埔军校”：我和“培立方”的故事丨华山进修

Arm高管：CPU的算力密度才是未来的“硬通货”