百川发布最强循证增强大模型M2 Plus，打造“医生版ChatGPT”

IP属地中国·北京 编辑：沈如风 TechWeb 时间：2025-10-22 16:20:53

10月22日消息，百川智能发布循证增强医疗大模型Baichuan-M2 Plus，同步升级配套应用百小应并开放API。这是百川自8月开源Baichuan-M2以来的又一次重要动作。评测显示，M2 Plus的医疗幻觉率较通用大模型显著降低，相比DeepSeek低约3倍，优于美国最火医疗产品OpenEvidence，可信度比肩资深临床医生水准。
据介绍，百川M2 Plus首创六源循证推理（EAR）范式，打造“医生版ChatGPT”，让大模型技术在辅助临床诊疗场景迈过“敢用、可用”关键门槛，不仅适合中国医疗环境，在美、日、英的医疗评测中均超过OpenEvidence，代表中国在世界大模型擂台上再下一城。
目前，接入M2 Plus的百小应已在各大手机应用商店更新，成为"医生版ChatGPT"。为方便电脑端使用，网页版（ying.ai）也同步上线。
Baichuan-M2 Plus也提供了标准化API接口，医院信息化部门、互联网医疗、大健康服务等各类泛医学机构，以及从事医疗AI行业的开发者，则可以通过API将循证推理接入服务场景，提升AI服务的医学专业性。
首创六源循证推理范式
循证医学（Evidence-Based Medicine, EBM）作为现代医学知识体系的核心范式，是确保医疗决策可信的关键。
通用大模型像一个“博学但不可靠”的专家，即便有搜索增强，也会因为知识来源混杂不符合循证医学范式。
百川不仅主动屏蔽了互联网的非专业信息来源，只使用权威来源的医学证据，还在此基础上构建了从证据、到实践、再到真实世界反馈六层证据类型的知识体系：
• 原始研究层：索引海量医学期刊论文4000余万篇，超过PubMed收录数量，涵盖基础与临床研究成果，是循证链条的起点；
• 证据综述层：整合系统评价和Meta分析等高等级证据，提供经过汇总的研究结论；
• 指南规范层：引入国际和国内权威机构发布的临床指南、专家共识和行业标准，确保回答符合最新规范；
• 实践知识层：包含临床病例报道、一线专家经验和诊疗技巧等实用知识，贴近医疗实践场景；
• 公共健康教育层：汇集权威科普和公共卫生知识，如疾病预防宣教、健康指导等内容，服务大众健康教育；
• 监管与真实世界层：涵盖药监部门公告、临床试验登记及大规模真实世界研究数据等信息，以反映最新的监管动态与人群研究结果；
这个金字塔形的“六源”，是一层一层演化而来：原始层回答“事实是否存在”、证据层回答“结论是否一致”、指南层回答“行业如何规范”、实践层回答“医生应如何决策”、公共层回答“患者应如何理解”、真实世界层回答“是否存在新风险”。这让模型从“生成答案”走向“据实回答”，实现了从语言可信度到知识可信度的跃升。
传统的RAG检索往往追求“找得到”，而循证检索追求“找得准”。
M2 Plus采用PICO框架（人群Population、干预Intervention、对照Comparison、结局Outcome）思维，将查询转化为结构化医学问题，并在六源数据库中进行分层匹配。例如：当输入“老年OSA患者使用CPAP能否改善高血压？”时，系统优先在高等级证据（系统综述、RCT元分析）中搜索，并自动辨识研究质量、样本量、置信区间与结局指标。
这种方法克服了通用RAG的两大缺陷：一是缺乏医学语义理解（无法区分CPAP疗效与依从性分析）；二是无法辨别文献可靠性（新闻与指南同权）。在此基础上，M2 Plus能够三步精准锁定“铁证”：
第一步，智能提问：自动将用户问题拆解成多个专业的PICO查询，进行“地毯式”证据搜索，兼顾精度与广度。
第二步，精准锁定：通过自研的Medical Contextual Retrieval技术，完整保留文献的临床因果链，避免信息割裂。
第三步，证据排序：内置“审稿人”模型，自动评估证据等级（如RCT、Meta分析），将最可信、最相关的“铁证”优先呈现。
如果说“六源循证”解决了医疗AI知识从哪来的问题，“PICO智能检索”解决了如何快速找到正确证据的问题，那么最关键的一步是如何确保AI在手握证据时，不会“自由发挥”、脱离事实胡乱回答。
百川智能在M2 Plus中引入“循证增强训练”机制，为模型的回答过程“上了一道锁”，从根本上改变了其生成逻辑，让它学会“引用，而非臆测”。
首先，在训练中奖励“引用”，惩罚“臆测”，准确引用权威来源（如指南、文献）时会获得高分，一旦回答脱离了检索到的证据就会受到惩罚；
其次，内置“证据评估器”，模型被训练得能够自动评估检索到的证据质量，优先采纳高可信度的信息（如RCT、Meta分析），并将其无缝嵌入到推理链中；
第三，句句有据，可回溯、可验证：经过训练，M2-Plus的回答风格发生了根本性改变，在输出关键结论时，会自动附上参考文献、指南出处等来源，这赋予了AI回答更高的可解释性与可信赖度。
幻觉最低，达到与人类资深临床专家同等可信度
这种“循证驱动”的生成逻辑，让M2 Plus几乎杜绝了无中生有的内容。在多场景评测中，其综合幻觉率在所有大模型当中最低，相较DeepSeek R1最新版降低3倍，显著领先OpenEvidence。不仅如此，在病史分析、诊断思路、治疗方案等真实复杂的核心医疗场景中，达到了与人类资深临床专家同等的可信度。
美国执业医师资格考试（USMLE）是评估临床知识和推理能力的黄金标准，在此项考试中，M2-Plus取得了惊人的97分，不仅远超人类考生平均水平，更与GPT-5的成绩持平，稳居全球第一梯队。
中国执业医师资格考试（NMLE）及格线为360分，M2 Plus取得了568分的“碾压级”成绩，在所有公开测试的主流大模型中位列第一。
中国硕士研究生招生考试临床医学综合能力（西医）考试中，M2 Plus在此项考试中取得了282分。通常，能考到280分以上的考生，都是协和、北医等顶尖学府的头部学霸。
另外，在日本、英国、澳大利亚等国高级医师职称晋升考试中，M2 Plus的准确率85%以上，远超各国及格线。
百川智能表示，通过开源Baichuan-Ｍ2、发布Baichuan-Ｍ2 plus、百小应，开放API，百川致力于持续提升AI医疗在真实临床场景的可用性，推动大模型在严肃医疗场景进入落地可用新阶段。（果青）

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

携程：2026财年第一财季营收162亿元，同比增长17%

俞浩社交账户已被公司接管，网上发疯是做极限测试，全民自媒体已终止

携程暴跌14%

硅芯片真神归位 IBM首发0.7nm工艺：密度5倍于7nm

零跑首款旗舰MPV D99正式上市 24.98万元起售

尊界S800 Grand Design典藏大观上市：L3+架构、售价138.8万元

全站最新

携程：2026财年第一财季营收162亿元，同比增长17%

俞浩社交账户已被公司接管，网上发疯是做极限测试，全民自媒体已终止

携程暴跌14%

硅芯片真神归位 IBM首发0.7nm工艺：密度5倍于7nm

热门推荐

携程预期Q2业绩增速大幅放缓，高管回应市场竞争

“龙大转债”倒计时不足一月，ST龙大坦言“钱不够还”

携程：2026财年第一财季营收162亿元，同比增长17%

俞浩社交账户已被公司接管，网上发疯是做极限测试，全民自媒体已终止

携程暴跌14%

硅芯片真神归位 IBM首发0.7nm工艺：密度5倍于7nm

零跑首款旗舰MPV D99正式上市 24.98万元起售

尊界S800 Grand Design典藏大观上市：L3+架构、售价138.8万元

零跑朱江明：当初差点跟罗永浩一样去做手机评估后放弃了

全尺寸MPV尊界V800/V680亮相：搭载全主动悬架，预售价80万-120万/65万-90万元

苹果罕见承认成本失控：Mac、Pad全球涨价，iPhone暂未受影响

速速下单！苹果Mac系列电商渠道还没涨价：最后的原价上车机会

江汽董事长项兴初：积极对标华为、站在巨人的肩膀上，产品研发效率提升近四成

百度千帆Coding Plan停止续费：已购用户可正常使用至服务到期

哈弗旗舰方盒子SUV长城H10亮相：归元平台打造，提供5座和6座布局

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

百川发布最强循证增强大模型M2 Plus，打造“医生版ChatGPT”