智东西
作者 陈骏达
编辑 漠影
智东西10月23日报道,昨日,百川智能正式推出了Baichuan-M2 Plus医疗大模型,这也是业内首个“循证增强”医疗大模型。该模型在百川今年8月开源的Baichuan-M2医疗推理模型的技术基础上升级而来,是百川在医疗AI领域的最新探索。
M2 Plus的核心亮点在于其首创的六源循证推理(Evidence-Argumented Reasoning, EAR)范式。这一创新机制对通用大模型在医疗领域长期存在的幻觉问题,提出了有效解决方案,让AI不再“闭门造车“,而是有理有据地回答问题。
评测显示,M2 Plus的医疗幻觉率较通用大模型显著降低,仅为DeepSeek-R1最新版的1/3左右,甚至优于美国最受欢迎的医疗AI产品OpenEvidence。
更令人瞩目的是,在多项国际与国内权威医学考试中,M2 Plus均展现了超越人类医生的水平:它在美国执业医师资格考试(USMLE)中取得97分的高分,与GPT-5位列全球第一梯队。
在中国执业医师资格考试(NMLE)中,M2 Plus以568分的成绩,远超及格线360分,领先于所有公开测试的主流模型。
这一系列成绩不仅展示了M2 Plus在医疗知识运用上的领先优势,也凸显了“循证增强”方法在解决医疗AI幻觉问题上的潜力。
一、幻觉成大模型落地医疗最大难点,循证医学如何成为可靠出路?
长期以来,医疗AI面临的最大瓶颈便是“幻觉”问题。通用大模型在医疗应用中,往往表现为“知识丰富但不可靠”。即便加入了检索增强或知识库接入机制,也难以完全避免错误或虚构内容。
这种不确定性在医疗领域尤为致命,因为一条错误的建议可能带来严重后果。正因如此,尽管中国并不缺乏医疗AI产品,但医院对其实际采用始终相对谨慎。
而在大洋彼岸,美国的OpenEvidence却成功实现了落地。数据显示,美国已有约40%的医生在临床场景中注册使用该产品,每月咨询量高达1650万次。
与通用大模型不同,OpenEvidence的最大亮点是有理有据的医疗问答。例如,它能从海量文献中搜索相关信息,为医生决策提供清晰、有依据的回答。
OpenEvidence的成功为业界提供了重要启示:要让AI在医疗领域真正落地,关键不仅在于“大模型”本身,而在于是否遵循了现代医学的核心逻辑——循证医学(Evidence-Based Medicine, EBM)。
循证医学理念诞生于20世纪90年代,强调医学决策必须建立在系统整合的最佳研究证据、医生临床经验以及患者真实需求的基础上。它摒弃了“凭经验行医”的传统模式,而强调科学、客观、可验证的诊疗路径。
在实践上,EBM遵循完整的“5A流程”:提出问题(Ask)、检索证据(Acquire)、评估质量(Appraise)、应用结果(Apply)以及持续评估(Assess)。其中核心思想是让所有临床判断都“有据可依”。
在这一框架下,医学知识被划分为从低到高不同可信度的层级,最可靠的研究位于金字塔顶端,如系统综述、Meta分析或随机对照试验(RCT)。这种分层机制通过关注最强的证据,以最大限度地减少偏倚,并增加做出最佳临床决策的可能性。
百川智能正是从循证医学理念中汲取灵感,提出了“六源循证推理范式”。他们认为,循证不应只是医生的工作原则,更应成为智能系统的底层原则。
基于此,百川在模型设计上引入了“证据分层+PICO检索+动态更新”的逻辑,使模型能够像医生一样识别、筛选并权衡不同层级的医学证据,最终打造出Baichuan-M2 Plus这一业内首个循证增强的医疗大模型。
二、首创六源循证推理范式,让AI回答“有理有据”
循证医学强调有据可依,因此,百川在知识来源上下了大功夫。他们首先屏蔽了互联网的非专业信息来源,只使用权威来源的医学证据,并在此基础上构建了从证据、到实践、再到真实世界反馈六层证据类型的知识体系。
从基础到应用,六源循证范式实现了从知识广度到可信度的全覆盖。
最底层是原始研究层,索引了超过4000万篇医学期刊论文,数量甚至超过PubMed收录量,这些基础与临床研究成果构成了循证链条的起点,用来回答“事实是否存在”。
第二层是证据综述层,整合系统评价和Meta分析等高等级证据,提供经过多项研究汇总后的结论,回答“结论是否一致”。
第三层为指南规范层,汇聚国内外权威机构发布的临床指南、专家共识和行业标准,确保模型的回答符合最新医学规范,回答“行业如何规范”。
第四层是实践知识层,收录临床病例报道、一线专家经验和诊疗技巧等实用内容,更贴近真实的医疗场景,回答“医生应如何决策”。
第五层为公共健康教育层,整合权威科普与公共卫生知识,用于健康教育与患者沟通,回答“患者应如何理解”。
第六层是监管与真实世界层,涵盖药监部门公告、临床试验登记及大规模真实世界研究数据,反映最新的监管趋势与人群研究结果,回答“是否存在新风险”。
通过这六层结构,M2 Plus将原始研究到权威指南的信息系统整合,使模型在生成医学结论时从根本上做到“有据可依”。
不过,光是找到证据还不够,百川智能在循证检索中追求的是找到最准确、最可靠的医学信息。
M2 Plus借鉴了循证医学常用的检索框架PICO,即人群(Population)、干预 (Intervention)、对照(Comparison)、结局(Outcome),并打造了基于PICO的搜索系统,让大模型具备临床医生式的提问与检索能力。
这一框架把查询转化为结构化医学问题,并在六源数据库中进行分层匹配。强化学习驱动的多层PICO查询生成机制,可将用户问题拆解为多个专业的PICO查询,进行“地毯式”证据搜索,兼顾精度与广度。
在搜索算法的基础上,百川自研了Medical Contextual Retrieval技术,使每段检索文献片段在分割、召回与排序中均能保留完整的PICO语义线索,减少因信息割裂造成的错误。
此外,PICO搜索系统还拥有PICO-aware重排序模型,能像审稿人一样自动评估证据等级,并将最可信、PICO匹配最完整的铁证优先呈现。
“六源循证”和“PICO智能检索”,分别解决了医疗AI知识从哪儿来和如何快速找到正确证据这两大关键难题。然而,要输出可靠的医学结论,仍需模型具备循证推理与专业判断的综合能力,使其不仅能“找对证据”,更能“用对证据”。
百川智能在M2 Plus中加入了“循证强化训练”机制,帮助模型提升材料鉴别力和回答准确率,鼓励模型优先选择权威信源,同时惩罚无凭无据的臆测,对正确的材料引用提供额外的引用格式奖励,最终打造出M2 Plus模型“规范引用+遵循事实求证”的回答风格。
这一机制保证了模型在手握证据时,不会“自由发挥”、脱离事实胡乱回答,赋予了AI回答更高的可解释性与可信赖度。
三、当AI学会循证医学,一线医生评价如何?
六源循证+PICO智能检索+循证强化训练的配合,让M2 Plus的幻觉大幅减少。在多场景评测中,其综合幻觉率在所有大模型当中最低,仅为DeepSeek-R1的1/3,也低于OpenEvidence和GPT-5等海外头部产品。
M2 Plus还在多国医疗考试中,大幅领先于人类医生。美国执业医师资格考试(USMLE)被广泛视为评估临床知识与推理能力的全球权威标准。该考试难度极高,即便经验丰富的临床专家,成绩突破90分也属罕见。最新测试显示,Baichuan-M2 Plus在USMLE中取得97分,显著高于人类考生平均水平,其表现与GPT-5相当,位列全球领先阵营。
在中国,执业医师资格考试(NMLE)及格线为360分,一般而言,考生能取得450分以上属于高分,超过500分被视为“学神”级别。M2 Plus在该考试中取得568分的成绩,在所有公开测试的主流大模型中位列第一,显示其对中国临床指南和医疗实践的掌握已达到较高水平。
在难度更高、知识面更广、题目设计极为复杂的中国硕士研究生招生考试临床医学综合能力(西医)上,M2 Plus取得了282分的成绩。对人类考生而言,能考到280分以上的往往都是都是协和、北医等顶尖学府的头部学霸。
同时,在日本、英国、澳大利亚等国高级医师职称晋升考试中,M2 Plus的准确率达85%以上,远超各国及格线。
考试之外,M2 Plus也获得了临床医生的高度认可。北京天坛医院的熊医生在研究目前PACAP在偏头痛中的研究进展时发现,相关的研究越来越多,想找到真正有价值的文献并不容易,多数大模型给出的答案都因幻觉问题而不可用。
搭载M2 Plus的百小应,则能够在数分钟内整合来自不同来源的最新研究结果,自动进行主题聚类与逻辑归纳,避免信息冗余和误导性解读,把科研人员从繁杂的文献搜索中解放出来,聚焦于科研创新与临床思考。
回答链接:
https://ying.baichuan-ai.com/share/SH731370758926341
在试用百小应后,熊医生评价道,它“能梳理全球PACAP偏头痛研究,从机制到III期临床试验自动串联证据链,不仅回答问题,更让医生站在未来看科研进展。”
接入M2 Plus的百小应的也能提供高效的信息检索能力。医生在临床工作中,难免遇到病史特殊,考虑可能为罕见病的特殊病患,检查结果均无法指向某个疾病。此时,百小应可以辅助整合信息,推测出潜在的罕见病,帮助医生快速制定检查方法。
回答链接:
https://ying.baichuan-ai.com/share/SH731290135638021
智东西对M2 Plus在临床指南查询场景的表现进行了实际体验。以往,每当新的国际或国内指南发布,医生通常需要花费大量时间手动检索和比对旧版与新版内容,尤其是在多学科交叉的疾病领域,这一过程不仅信息量巨大,还容易遗漏关键更新。
如今,医生只需在百小应中输入问题:“2025年ADA指南有哪些更新?”,系统即可准确理解提问意图,并快速检索相关医学文献和指南,梳理出核心更新要点。
百小应的每一条回答均有据可依,同时提供文献链接,医生不仅可以验证AI输出的内容,还能基于这些权威来源进行更深入的研究,从而大幅提升临床指南学习的效率与准确性。
回答链接:
https://ying.ai/share/SH733407702581253
目前,接入M2 Plus的百小应已在各大手机应用商店更新,成为“医生版 ChatGPT”。为方便电脑端使用,网页版(ying.ai)也同步上线。
Baichuan-M2 Plus也提供标准化API接口,医院信息化部门、互联网医疗、大健康服务等各类泛医学机构,以及从事医疗AI行业的开发者,可以通过API将循证推理接入服务场景,提升AI服务的医学专业性。
结语:医疗AI进入“循证增强”新阶段
Baichuan-M2 Plus的发布,标志着医疗 AI 进入“循证增强”的新阶段。一线医生每天面对繁重的临床决策压力,尤其是在基层和中小医疗机构,患者数量多、资源有限,知识更新又迅速,常常需要在短时间内做出高风险的判断。
通过首创的“六源循证”推理范式,M2 Plus将循证医学原则嵌入AI系统底层,使模型在复杂医学知识运用上可靠性显著提升,有效降低幻觉率,为临床医生的决策提供了有力辅助,有望缓解人手不足和信息滞后的压力,成为提升医疗服务质量的一条可能路径。M2 Plus还有望为广大患者及家属提供真正可靠的医疗AI服务,帮助他们理解诊断、治疗、预后及检查背后的科学逻辑。
从Baichuan-M2的开源,到M2 Plus的发布,再到百小应的升级,百川智能正推动 AI 在真实临床的落地应用,让大模型在严肃医疗场景真正可用,代表中国在全球医疗AI领域取得又一突破。