![]()
这项由OCC团队(Optimal Cognitive Core Team)开发的研究于2026年5月30日以预印本形式发布在arXiv平台,编号为arXiv:2606.00683,感兴趣的读者可以通过该编号查询完整论文。
每当我们提到人工智能,脑海中第一个浮现的画面往往是那些庞然大物——拥有数百亿参数、需要成百上千块顶级显卡才能运转的超大语言模型。这种"大即是好"的直觉确实有其道理,但也遮蔽了一个更有意思的问题:如果某项任务只需要高超的推理能力,而不需要记住整个互联网的知识,那么一个经过精心训练的小模型是否能胜过那些臃肿的巨人?
OCC团队就是带着这个问题出发的。他们发布了一个叫做OCC-RAG的系列小语言模型,分别拥有0.6亿和17亿参数(即OCC-RAG-0.6B和OCC-RAG-1.7B)。这两个模型专门为"根据给定文本回答问题"这一任务而生,要求模型严格依赖提供的文本内容,不能自作主张地套用自己记忆中的知识,也不能在答案不在文本中时胡乱编造。最终的评测结果相当耐人寻味:这两个小模型在多项关键测试上,稳定超过了体型是自己2到6倍的通用大模型。
要理解这件事为什么值得关注,不妨用一个生活中的例子来体会。假设你给一个考生提供了一份参考资料,让他回答一道题,而这道题的答案就在资料里。一个"好考生"应该认真读完资料,找到答案,然后如实作答。但问题在于,很多大模型反而会"自恃博学"——它们更愿意相信自己记住的东西,而不是眼前这份资料的内容,甚至在资料里写的和它记忆中的不一样时,也会偷偷用记忆中的答案来回答。OCC-RAG的目标,就是培养出一批真正"听话"、"老实"的考生,让它们把注意力集中在提供的材料上,而不是大脑里的旧知识库。
一、AI界的"忠诚考生":为什么这件事比看起来更难
要真正理解OCC-RAG在解决什么问题,得先搞清楚大语言模型在阅读理解任务上会犯哪些错误。论文里给出了一个非常直观的例子:给模型一段包含虚假信息的文字——"2022年,戴高乐将军当选美国第一任总统",然后问"美国第一任总统是谁?"
这时候,不同模型的表现简直是百态人生。体量达到700亿参数的Llama-3.3模型给出了"戴高乐"的答案——这个答案在现实中当然是错的,但从任务要求来看,这恰恰是正确的,因为文本里就是这么写的。拥有80亿参数的Llama-3-8B则回答了"乔治·华盛顿"——这是真实世界中正确的答案,却违背了任务要求,因为模型在不听话地引用自己的记忆。更糟糕的是,仅有10亿参数的Llama-3.2-1B给出了"唐纳德·特朗普"——这既不忠于文本,也不符合现实,是彻彻底底的胡说八道。
而OCC-RAG-1.7B的答案是"戴高乐"——尽管这个模型的体量比那个700亿的模型小了将近40倍,但它做到了同等水准的"忠诚"。这背后的秘密,不在于它有多大,而在于它经过了怎样的专门训练。
这种"忠诚"在专业术语里叫做"忠实性(faithfulness)",是评判一个检索增强生成(RAG)系统好不好的核心指标之一。所谓RAG系统,就是把"提供资料"和"回答问题"组合起来的AI应用,在企业客服、法律咨询、医疗问答等场景中极为常见。这些场景的共同特点是:系统必须依据特定的文档、政策或资料来回答问题,而不能随意发挥。如果模型不够"忠诚",就可能给出与公司政策不符的答案,或者引用过期的法规,后果可想而知。
研究团队将一个理想的上下文问答系统的能力分解为三大核心:其一是多跳推理与常识推断,也就是能够跨越多段文字把信息串联起来,就像侦探把散落的线索连成完整案情一样;其二是避免记忆干扰,也就是在做题时专心盯着面前的卷子,而不是东张西望地回忆以前背过的东西;其三是安全弃权,当文本里根本没有足够信息来回答问题时,能够老老实实地说"不知道",而不是强行编一个答案出来。这三点听起来简单,要同时做好却极其困难。
二、从零打造一个"专科学霸":训练数据的精心设计
OCC-RAG的成功,很大程度上源于一套精心设计的训练数据生产流水线。研究团队最终生成了超过325万个训练样例,合计约80亿个词元(可以粗略理解为"字"或"词的片段")。这个语料库不是随手拼凑的,而是按照难度层层递进、有意识地覆盖各种推理场景而构建的。
整个语料库分为四大类。最基础的是单跳问答,也就是答案明确出现在某一段文字中,不需要多段信息的组合,这类样例最多,约有278万个,提供了海量的基础训练信号。接下来是单上下文多跳问答,约26万个,这类问题需要把同一篇文章里不同地方的信息串联起来才能回答。再复杂一些的是多上下文多跳问答,约16.5万个,需要从多篇不同文章中抽取信息,然后融合推理。最后还有约4.3万个"无法回答"的样例,专门训练模型认识到什么时候该说"我不知道"。
单跳问答的生产过程可以用"流水线作业"来理解。团队首先从英文维基百科的海量文章中把文字切成一段一段的,每段就是一个"知识块"。然后,他们用一个叫gpt-oss-120B的大模型对每个知识块生成十对问答,要求问题能自成一体,答案必须是文本中实际存在的短语。为了让模型在训练时学会分辨"哪段是有用的,哪段是干扰项",团队还会为每篇文章找来最多一千篇相关的维基百科子页面,从中挑选出最"像"但实际上无关的段落作为干扰项,并用一种叫TF-IDF的文本相似度算法打分,保留最像的二十篇作为干扰上下文。最后,再用另一个大模型当"裁判",过滤掉质量不合格的问答对。
多跳问答的生产则要复杂得多,需要引入一个叫"知识图谱"的工具。知识图谱可以理解为一张由实体和关系构成的网络图,比如"爱因斯坦"通过"出生地"这条边连接到"乌尔姆","乌尔姆"又通过"位于"连接到"德国"。通过在这张网上沿着边走两步或三步,就能找到一条"推理路径",比如"爱因斯坦的出生地所在的国家是哪个?"就需要走两步。
研究团队从一个叫做MuSiQue的多跳问答数据集中提取出文章,然后用一个叫Wikontic的知识图谱提取系统把文章转化成结构化的图。这个系统会利用来自维基数据的本体约束来去除冗余和矛盾信息,并对实体进行标准化处理,使图的连通性最大化。提取出的图谱会被存入一个RDF数据库,方便后续用SPARQL这种专用查询语言来检索特定形状的子图。
在问题类型上,研究团队借鉴了一个叫DRAGOn的测试基准中的问题分类体系,覆盖了简单单跳、集合类两跳、链式多跳、条件判断两跳,以及三跳的"竹节型"问题(即A→B→C这种线性推理链)。每种类型都对应一个专门的SPARQL查询模板,从图谱中筛选出符合该拓扑结构的子图,再要求大模型基于这条确定的路径生成问题。由于答案是由推理路径本身决定的,而非由模型自由发挥,这就保证了生成问题的可验证性和可控性。
无法回答的样例则通过另一种方式产生。团队用一个在SQuAD数据集上微调过的DeBERTa模型来对减少了部分关键信息的上下文进行尝试性回答,如果这个擅长阅读理解的专用小模型都找不到正确答案,那就说明关键信息确实缺失,这个样例就被标注为"无法回答"。这种方法的巧妙之处在于,即便减去了答案所需的信息,上下文中仍然存在大量相关内容,模型很容易被迷惑,从而构成了真正有挑战性的"弃权训练题"。
三、教会模型"说明推理过程":结构化推理链的设计
光有题目和答案还不够。OCC团队意识到,如果只是用"问题-答案"的简单形式来训练,模型可能只学会了模式匹配,并没有真正学会推理的过程。为此,他们为每一个训练样例都配上了一个详细的"推理轨迹",就像老师要求学生不仅写答案,还要写出解题步骤。
这个推理轨迹由五个固定部分组成,每个部分的边界都用特殊标记符号明确标出。第一部分叫"查询分析",要求模型先把题目拆解清楚,搞清楚问的是什么、涉及哪些实体和关系;第二部分叫"来源分析",要求逐一评价每个提供的上下文片段,指出哪段有用、哪段是干扰项、每段贡献了什么信息;第三部分叫"推理",把各段有用信息整合起来,一步步推导出最终答案;第四部分是一个明确的"状态"标签,只有两种取值——"可回答"或"无法回答",这个明确的二元判断迫使模型在给出答案之前必须先做出清晰的是否决策;第五部分才是"答案"本身。
这套格式借鉴自另一个叫Pleias-RAG的模型,并在其基础上加入了"状态"标签这一关键创新。加入这个标签的原因很务实:如果不把"弃权"变成一个模型必须明确预测的标签,模型往往会靠委婉的措辞来表达不确定性,而这种不确定性在评测时很难被准确识别和奖励。把它变成一个必须做出的离散决策,就把"知道何时不回答"变成了一个可以通过监督信号直接教给模型的技能。
生成这些推理轨迹的工作由Qwen3.5-27B这个模型来承担。研究团队经过实验,选择关闭这个模型自带的"思考模式"——因为开启思考模式会大幅增加生成成本,而且在实验中并没有带来明显的学生模型质量提升。生成完毕后,还要经过四关质量过滤:第一关检查格式是否完整,五个部分缺一不可;第二关检查答案是否与标准答案匹配;第三关对于未能精确匹配的样例,再调用Qwen3-4B作为裁判进行二次核查;第四关过滤"过度思考"的案例,即把推理部分超过1256个词元、或包含超过十个诸如"等等"、"或者说"之类思考标记词的轨迹都删除掉,避免将冗长啰嗦的推理习惯传递给学生模型。
四、中间训练:在已有基础上打磨专业技能
OCC-RAG的训练方式叫做"中间训练(mid-training)",这个概念本身也值得好好解释一下。当今大多数语言模型的诞生要经历两个阶段:第一阶段是在海量文本上进行预训练,模型在这个过程中吸收了大量关于世界的基础知识和语言规律,就像一个人从小到大接受通识教育;第二阶段是针对特定任务的微调,让模型学会遵循指令、进行对话等,就像大学毕业后参加工作培训。
中间训练则插入在这两个阶段之间,是一种专门针对某类任务进行的大规模训练,规模比微调大得多,但又不如预训练那样全面。可以理解为:先在海量文本上打好语言基础,再用数以百万计的专项练习题进行"考前强化训练",使模型在特定技能上形成深刻的行为习惯,最后再进行对话微调。
研究团队在选择基础模型时,对比了Qwen3、Gemma3和SmolLM3三个家族的小语言模型,最终选择了Qwen3的0.6B-Base和1.7B-Base版本,因为在相同计算资源下,Qwen3在早期实验中表现最佳。
在数据混合策略上,团队观察到单跳样例的数量远多于多跳样例(约大一个数量级),但多跳问题才是真正考验推理能力的题目。为了让模型充分学习多跳推理,他们对每个多跳样例进行了三倍过采样——也就是说,每个多跳样例在一个训练轮次中会被重复展示三次,而单跳样例只展示一次。实验证明,这种做法能稳定提升多跳测试的准确率,而不会对单跳性能造成可测量的损失。团队也尝试了先只用单跳数据训练、到了某个步骤再引入多跳数据的课程式训练方案,但实验发现效果与静态混合方案没有明显差异。
在格式设计上,训练时使用的输入格式与评测时完全一致:问题被放在特殊标记之间,每段上下文也各自被标记并附有编号来源标识,且上下文的顺序每次随机打乱。这种设计消除了训练和测试之间的格式差距,确保模型在实际使用中不会面临陌生的输入形式。边界标记符号对应的词嵌入采用了一种特别的初始化方式——取该标记的自然语言名称对应的子词嵌入的均值,这样做能让新加入的特殊词汇一开始就有有意义的向量表示。
两个模型都在约90亿个词元上完成了训练。OCC-RAG-0.6B约花了17小时,OCC-RAG-1.7B约花了28小时,硬件配置是8块NVIDIA H100显卡(每块80GB显存),采用的是全参数分片数据并行(FSDP)的分布式训练策略,以及Liger融合线性交叉熵损失核来节省显存。
五、实战检验:五个维度的硬核评测
研究团队选用了五个公认的测试基准来检验OCC-RAG的真实能力,覆盖了多跳推理、忠实性和弃权三大核心维度。
在多跳推理维度,评测使用了三个数据集。HotpotQA是一个基于维基百科的多跳问答数据集,每道题配有10个上下文片段(其中包含干扰项),共7405道题。MuSiQue是难度更高的多跳问答集,同样配备10个上下文片段,共2417道题,其特点是问题的推理链更长、更复杂。TAT-QA则专注于金融领域,问题融合了表格和文字内容,研究团队只保留了需要从文本/表格中直接提取答案的题型,排除了需要做数学计算的题型,因为后者考验的是算术能力而非文本理解。HotpotQA和MuSiQue使用"包含准确率"作为评测指标,即标准答案是否作为子字符串出现在模型的预测结果中;TAT-QA使用F1分数来衡量预测答案与标准答案在词元层面的重叠程度。
在忠实性维度,评测使用了ConFiQA数据集。这个数据集构造得相当精妙:它用维基数据中的实体关系三元组,替换掉其中某个事实,生成一个与现实世界相悖的反事实上下文,然后让模型在这个包含虚假信息的文本下回答问题,看模型是"忠于文本"还是"套用记忆"。ConFiQA分三个难度子集:最简单的QA子集是单个三元组被修改;MR子集是多跳链中有一个三元组被修改;最难的MC子集是推理链上的每一个三元组都被改掉。评测指标包括反事实答案的包含准确率(越高说明模型越忠实),以及"记忆化比率(MR)"——即当文本内容与模型记忆冲突时,模型多大比例的时间会偷偷用记忆中的答案,比率越低说明模型越不依赖记忆、越忠实于文本。
在弃权维度,评测使用了MuSiQue-Un,这是MuSiQue的"无法回答"版本:原数据集中的支持性段落被替换成无法支持答案的文段,但上下文看起来依然相关,模型容易上当。评测指标是"弃权准确率",即模型预测结果中包含"Not enough information(信息不足)"这个短语的比例。
与OCC-RAG进行比较的对象涵盖了多个主流开源模型家族,包括Qwen3(0.6B到32B的全系列)、Gemma3(1B到27B的全系列)、SmolLM3-3B,以及同样针对RAG任务专门优化的Pleias-RAG-1.2B。对于支持思考模式的模型(如Qwen3和SmolLM3),研究团队同时汇报了开启和不开启思考模式下的两组成绩。
六、成绩单:数字背后的故事
评测结果展示出一幅引人深思的画面。在多跳推理方面,OCC-RAG-0.6B在HotpotQA上取得57.6分,在MuSiQue上取得36.6分,在TAT-QA上取得75.0的F1分数。OCC-RAG-1.7B则分别取得60.9、38.2和81.0。对比一下,同等体量的Qwen3-0.6B在这三个数据集上的成绩是34.8、13.2和62.5(不开启思考模式),即便开启思考模式也只有41.8、17.2和66.3,与OCC-RAG-0.6B存在明显差距。同等体量的Gemma3-1B则更是只有30.8、12.8和53.6。
体量是OCC-RAG-0.6B将近三倍的SmolLM3-3B,成绩是49.9、21.5和71.1(不开启思考模式),在HotpotQA上略低于OCC-RAG-0.6B,在MuSiQue和TAT-QA上则被明显拉开差距。体量是OCC-RAG-0.6B近五倍的Qwen3-4B,在不开启思考模式下的成绩是60.6、33.1和76.9,与OCC-RAG-1.7B相比各有高低,但考虑到两者的体量差异,这个结果无疑是OCC-RAG-1.7B的一次重要胜利。
在忠实性方面,OCC-RAG的优势更为显著。OCC-RAG-0.6B的ConFiQA平均准确率达到79.9,记忆化比率低至5.2;OCC-RAG-1.7B的ConFiQA平均准确率是81.4,记忆化比率是5.0。对比一下,Qwen3-1.7B(即便开启思考模式)的ConFiQA准确率是70.4,记忆化比率是8.3,而不开启思考模式时更是高达12.7。Gemma3-27B的记忆化比率是8.0,竟然还不如OCC-RAG-0.6B的5.2!从这个数据可以看出,记忆化比率并不随模型规模增大而自然降低——OCC-RAG通过专门的训练,从根本上改变了模型对待文本与记忆冲突的处理方式。
弃权能力的差距同样触目惊心。OCC-RAG-0.6B的弃权准确率是86.9,OCC-RAG-1.7B是87.2。而Gemma3-1B只有2.2,也就是说它几乎完全不会弃权,被问到无法回答的问题时会一路硬撑着编出答案。Qwen3-0.6B在不开启思考模式下只有6.3,开启思考模式后跳到70.0,而OCC-RAG-0.6B不需要思考模式就稳定在86.9以上。Qwen3-8B开启思考模式后能达到90.3,是被评测的通用模型中在弃权维度最接近OCC-RAG的——但它的体量是OCC-RAG-1.7B的将近5倍。
最后再看曾经最直接的竞争对手Pleias-RAG-1.2B。这是此前专门针对RAG任务优化的小模型,在多跳推理上的表现相当惨淡:HotpotQA 48.5分、MuSiQue 15.0分,TAT-QA只有8.4分,ConFiQA仅37.3分,弃权准确率21.9。OCC-RAG-0.6B在MuSiQue上比它高了21.6分,在ConFiQA上高了42.6分,在弃权准确率上高了65个百分点。这种碾压性的差距,正如研究团队分析的那样,主要源于OCC-RAG的训练数据中包含了大量精心设计的多跳推理样例,而Pleias-RAG的训练流程缺乏这一部分。
从更宏观的角度看整张评测表,有一个规律相当清晰:通用大模型在体量增大时,多跳推理能力的提升比忠实性和弃权能力的提升更显著。Qwen3-32B在HotpotQA和MuSiQue上的成绩远优于更小的Qwen3模型,但在忠实性和弃权上的提升却相对有限。这印证了论文的核心主张:忠实性和安全弃权不会随着模型变大而自动获得,它们需要专门的训练设计。
说到底,OCC-RAG这项工作揭示的核心道理其实并不复杂:一个为特定考试专门备考的学生,完全可以在这场特定考试中击败一个博览群书却从不专项训练的学霸。模型的规模决定了它能记住多少世界知识,但任务专项训练决定了它在这项任务上的推理习惯和行为策略。当这两个维度发生冲突时,后者往往才是胜负的关键。
归根结底,这项研究的意义不仅仅在于"小模型赢了大模型"这个吸引眼球的结论,更在于它提供了一套可复现的方法论:如何设计分层次、覆盖多种推理类型的合成训练数据,如何用结构化推理轨迹把隐性的推理目标变成显式的监督信号,如何通过中间训练在不增加模型体量的前提下显著提升特定能力。这套方法论对于任何需要构建专用AI系统的团队——无论是在医疗、法律、金融还是教育领域——都有直接的参考价值。
当然,OCC-RAG也并非完美无缺。在大模型8B及以上体量区间,Qwen3家族在多跳推理能力上依然保持领先,且差距不容忽视。OCC-RAG对算术和计数类问题(如TAT-QA中的数学计算题)的评测也被刻意回避,这意味着在需要数值推理的场景下,模型的边界还需要进一步探索。这些方向,或许正是这个团队下一步值得耕耘的领域。
有兴趣深入研究这项工作的读者,可以通过arXiv编号2606.00683查阅完整论文,模型权重和代码也已在Hugging Face(occ-ai)和GitHub(optimal-cognitive-core)上公开发布。
Q&A
Q1:OCC-RAG模型和普通大语言模型有什么根本区别?
A:OCC-RAG最核心的区别不在于大小,而在于训练方式。普通大模型在回答问题时会综合利用自己记住的知识和提供的文本,有时会偏向用记忆覆盖文本内容。OCC-RAG通过325万个专项训练样例,专门强化了"只看眼前文本、不套用记忆"的行为习惯,并学会了在文本信息不足时主动说"不知道",而不是强行编造答案。
Q2:OCC-RAG训练数据中的多跳推理样例是怎么生成的?
A:团队从MuSiQue数据集的文章中提取文本,用Wikontic系统将文章转化为知识图谱,再用SPARQL查询从图谱中找出符合特定推理结构的子图(如两跳链、三跳链等),最后用gpt-oss-120B根据这条固定的推理路径生成问题和答案。由于答案由路径本身确定,保证了可验证性,生成后还要经过格式检查、答案匹配和裁判模型三关过滤。
Q3:OCC-RAG的弃权能力为什么比同等体量的通用模型强这么多?
A:弃权能力强主要来自两方面设计。一是训练数据中专门包含约4.3万个"无法回答"样例,这些样例经过精心设计——上下文依然看起来相关,只是缺少关键信息,强迫模型学会真正识别信息缺失;二是推理格式中加入了一个强制性的"状态"标签,模型在给出答案前必须先明确声明"可回答"或"无法回答",把弃权决策变成了一个可被直接监督的明确预测目标。





京公网安备 11011402013531号