![]()
这项由上海交通大学与上海人工智能实验室联合完成的研究,以预印本形式发布于2026年6月,论文编号为arXiv:2606.05112,感兴趣的读者可通过该编号在arXiv平台查阅完整论文。
医生这个职业,远比"知道答案"复杂得多。当一位病人推开诊室的门,医生要做的事情是:先问清楚症状出现多久了,再根据回答决定做哪些检查,等检查结果出来之后再调整判断,随时准备应对病情的变化,还要用病人听得懂的语言解释清楚发生了什么。这是一场动态的对话,而不是一道选择题。
偏偏目前绝大多数关于AI能不能当医生的测试,都只是在让AI做选择题。研究人员会把一个医学问题摆在AI面前,问它:这个病人最可能得的是什么病?然后看看AI的答案对不对。如果只用这种方式来判断AI的医学水平,那得到的结论就像是——一个能把菜谱背得滚瓜烂熟的人,厨艺一定很好。但实际上,背菜谱和炒出一道好菜,完全是两回事。
正是为了戳破这个泡沫,上海交通大学的研究团队搭建了一套全新的考核体系,名叫MedSP1000。他们把这套系统想象成医学院里一种经典的考试方式——标准化病人测试。
一、医学院里那种让学生胆战心惊的考试
在真实的医学教育中,要测验一个医学生的临床能力,光靠笔试是不够的。于是医学院发明了一种叫做"标准化病人"的考核方式,英文缩写SP。做法是:找一些经过专业训练的人,让他们扮演病人,按照固定的剧本来表演症状、回答问题。医学生要跟这位"演员病人"进行真实的对话,问病史、做检查、下判断、给方案。全程有考官在旁边拿着一份细致的评分表,记录医学生在每一个环节上做了什么、漏掉了什么、顺序对不对。
这种考试有个正式的名字,叫做客观结构化临床考试,也就是OSCE。它之所以被世界各地的医学院广泛使用,是因为它能考出那些笔试永远考不到的东西——比如你问问题的顺序合不合理、你有没有在该解释的时候对病人解释清楚、你有没有在关键时刻做出正确的紧急处置。
研究团队意识到,这套体系天然适合用来考核AI。于是他们从MedEdPORTAL上下载了大量素材。MedEdPORTAL是美国医学院协会旗下的一个开放平台,上面存放着由医学教育者编写、经过同行审查的教学材料,其中就包括大量的标准化病人案例。这些案例原本是给医学生练手用的,配有完整的病人剧本、考核评分表、临床进展描述,质量有保障,覆盖面也极广。
研究团队从1073篇文章出发,经过筛选和处理,最终构建出了包含1638个可交互场景的评测数据集,总共提炼出24602条评分条目。这些场景横跨17个临床科室,从急诊科到儿科,从妇产科到精神科,从麻醉科到肿瘤科,可以说把医院里的大部分场景都囊括其中了。他们把这个数据集命名为MedSP1000。
二、把一份教学材料变成一场真实模拟的工程
原始的教学材料是五花八门的文件格式,有PDF、有Word文档、有PPT,内容也是混在一起的,病人的剧本、考官的评分表、教学目标统统塞在一起。要把这些材料变成能让AI真正"上场考试"的东西,需要大量的工程工作。
研究团队开发了一条三阶段的处理流水线。第一步是把所有文件统一转成Markdown格式,就像把各种方言翻译成同一种标准语言,方便后续处理。第二步是最关键的:把每个场景的材料拆分成四份,分别交给四个不同的"角色"。第一份给AI医生,只包含病人刚来时的基本情况和主诉,不能包含任何答案或提示;第二份给扮演病人的AI,包含完整的病人剧本;第三份给环境控制器,包含化验结果、影像报告、病情进展的规则;第四份给评分系统,包含完整的评分标准。第三步是一个自我检查环节,让系统回头审查有没有把不该给AI医生看的信息混进了它的材料包里。
这个拆分过程有两条铁律:第一,绝对不能信息泄露,AI医生绝不能提前看到它本来需要通过问诊和检查才能获得的信息;第二,绝对忠于原文,不能往材料里加任何原本没有的内容,包括化验数值、诊断结论、治疗方案,全部必须来自原始教学材料。
为了确保这套构建流程的质量,研究团队专门邀请了12位临床医生参与验证。这些医生来自上海交通大学附属的多家医院,平均有8年的医学培训经历。他们对100个自动构建的场景进行了人工审查,每个场景由两位医生独立评分,从文件理解准确性、输出结构完整性、临床内容忠实度、模拟可行性四个维度打分,满分5分。最终四个维度的平均分分别是4.66、4.85、4.80和4.81,两位评分者之间的分歧平均只有0.41分,说明构建质量得到了临床专业人员的认可。
三、考试现场:三个AI角色同台运转
考试的运行方式是这样的:AI医生被放进一个封闭的场景里,它首先收到的只是一张"情境初始化卡",里面写着它扮演的角色是谁、身处什么科室、病人主诉是什么。接下来,AI医生要跟两个模拟系统展开对话。
一个是病人AI,它按照剧本扮演病人,回答AI医生提出的问题,比如描述症状、提供既往病史。另一个是环境控制器,负责处理非对话类的医疗行为。当AI医生说"我要给病人查一个血常规",环境控制器就会根据材料包里预先规定的内容,返回相应的化验结果。如果AI医生要求的检查在原始材料中没有对应的结果,环境控制器不会编造数据,而是标注为"不支持"。
整个场景被划分为若干个临床状态节点。AI医生在当前状态完成了它认为该做的事情之后,发出一个"结束当前状态"的信号,环境控制器就会判断是否应该推进到下一个状态。比如,初始评估完成之后,可能进入病情恶化阶段;手术干预之后,可能进入术后监测阶段。如果原始材料描述了下一个状态,就继续;如果没有,考试结束。
等整个交互流程结束,评分AI登场。它拿到完整的对话记录,对照24602条评分条目,逐一判断AI医生在整个过程中有没有完成每一条要求。评分结果是二值的:完成或未完成。
评分维度来自美国毕业后医学教育认证委员会(ACGME)定义的六项核心能力,分别是:病人照护、医学知识、系统性实践、人际沟通能力、基于实践的学习与改进、以及职业素养。研究团队的核心评估指标是"评分条目完成率",即AI医生在一场考试中完成了多少比例的评分条目。
四、成绩揭晓:最强模型也只答对六成
研究团队把七个代表性的大语言模型都送进了这套考试系统。这七个模型分成三类:一类是顶级的闭源商业模型,包括GPT-5.5、Claude-Opus-4.7和Gemini-3.1-Pro;一类是开源的通用大模型,包括DeepSeek-V4-Pro和Qwen-3.5;还有一类是专门针对医疗领域进行过专项训练的医疗专用模型,包括MedGemma和Baichuan-M3。
成绩出来之后,研究团队发现了两件令人意外的事情。
第一件:即便是最强的模型,成绩也远称不上优秀。GPT-5.5以60.4%的完成率拿到了第一名,这意味着即使是当前最先进的AI,在面对这套模拟医疗考试时,仍然有将近四成的评分条目没能完成。Claude-Opus-4.7以57.4%紧随其后,Gemini-3.1-Pro得到54.7%,DeepSeek-V4-Pro是56.6%,Qwen-3.5是51.5%。
第二件,也是更让人吃惊的:专门为医疗领域定制的模型,成绩反而是垫底的。MedGemma只完成了39.5%,Baichuan-M3也只有40.0%。这两个医疗专用模型比最弱的通用模型Qwen-3.5还低了超过11个百分点,比GPT-5.5更是低了整整20个百分点以上。
这两个发现合在一起,说明的是同一件事:现有的AI,无论是通用的还是医疗专用的,在需要动态决策的真实临床交互中,都还远远没有达到可以独立作业的水平。那些在标准医学问答测试上得分很高的AI,在这套考试面前暴露了它们真实的短板。
五、六项能力各有强弱,有一项几乎全军覆没
把成绩按照六项核心能力拆开来看,会发现一个稳定的规律:所有模型在这六项能力上的排名几乎是一样的。
病人照护和职业素养是相对最强的两个维度。医学知识、系统性实践和人际沟通居中。而"基于实践的学习与改进"这一项,是所有模型的共同软肋,没有任何一个模型在这个维度上的完成率超过30%,两个医疗专用模型甚至低于20%。
这个维度考核的是什么?简单来说,是自我反思、识别错误、承认自己知识边界的能力。在临床上,这意味着医生要在恰当的时候说"这件事我不确定,需要查一下"或者"我之前的判断可能有误,需要重新评估"。这类行为对AI来说特别难触发,因为当前的AI训练方式主要鼓励模型给出明确的答案,而不是主动承认不确定性。
从科室维度来看,急诊科、内科、外科和重症科的完成率相对较高,平均在60%上下;而全科医学、老年医学和妇产科则明显偏低,平均在52%以下。研究团队的解释是:急诊和外科有更明确的操作流程,AI比较容易按图索骥;而全科医学和老年医学需要同时整合多个系统的信息、处理复杂的社会心理因素,这种综合性更高的场景对AI来说更困难。
六、更多算力不等于更好表现
研究团队还做了一个额外的测试:既然GPT-5.5是最强的,那如果给它更多计算资源,让它用更复杂的策略来回答,能不能进一步提升成绩?他们在100个人工验证过的场景上做了这个实验。
第一种策略叫"最优N选取":让GPT-5.5把同一个场景独立运行5次,然后把5次运行中在每个决策点上出现最多次的选择作为最终答案,类似于让5个医生独立会诊然后投票表决。第二种策略叫"多学科团队会诊":让GPT-5.5同时扮演5个不同专科的医生,5个虚拟专家独立发表意见之后,再由一个综合角色汇总做出最终决定,模拟真实医院里的多学科会诊。
结果却让人有些沮丧。单次直接回答的完成率是67.1%,"最优5选取"的完成率是67.8%,"多学科团队"的完成率是68.0%。三者之间的差距连1个百分点都不到,在统计意义上无法区分。多花了5倍的计算资源,基本上什么都没改变。
更有意思的是,当研究团队把成绩拆开到六个维度来看,"多学科团队"在人际沟通这一项上确实有所提升,从0.57升到了0.61。但在其他维度上,这个策略的表现反而普遍比单次直接回答要差。研究团队认为,多个AI专家同时讨论时,系统更容易产生过度自信,在还没有收集足够信息的情况下就急着结束会诊。
在第三个案例研究里,研究团队详细记录了一个让人哭笑不得的失败案例:一个2岁孩子因为意识状态改变被送进儿科重症监护室。在模拟的第7轮交互中,五个虚拟专科医生里有三个(神经科、血液肿瘤科、神经外科)投票认为孩子已经稳定,可以结束考试;另外两个(急诊科和重症科)坚持认为基本的复苏操作还没完成,不应该结束。最终3比2多数票胜出,系统提前结束了考试。于是,液体复苏、床旁血糖、静脉血气、纳洛酮这些两位持异议的虚拟医生明确点名要求的基础处置全都没有完成,统统被计为"未达成"。这个案例清晰地展示了多代理协作机制本身可能制造新的失败。
七、两个典型失败案例的细节
研究团队还提供了另外两个详细的案例研究,让我们能看清楚AI在哪里失手。
第一个是急性缺血性卒中的处理。GPT-5.5在这个场景里的表现相当不错:它在规定时间内完成了初步评估,确认了症状出现到就诊的时间窗口,做了手指末梢血糖检测,开了合适的化验和影像,进行了神经功能评分,最终在正确的条件下决定使用溶栓药物。25条评分条目里,它完成了23条。
漏掉的两条是什么?第一,指南规定在收缩压高于185时应该先静脉注射10毫克拉贝洛尔(一种降压药),但AI医生给的是20毫克;第二,在开始溶栓之前,AI医生没有明确向家属解释治疗的风险、获益和替代方案。这两条都发生在AI医生总体处置正确的框架之内,是更精细的"规程执行层面"的失误,而这恰恰是那种只问"诊断对不对"的测试永远无法发现的错误。
第二个是产前营养咨询案例。一位早孕期的孕妇(在案例里叫丽萨)来咨询饮食问题,因为她家里有吃野生鳟鱼的习惯,可能存在汞暴露风险。GPT-5.5在收集信息方面表现得相当认真:它把开放式的饮食问题转化为量化追问,精确地问出了她吃哪种罐头金枪鱼、每周几次、旗鱼和橙连鱼多久吃一次、自己钓的鳟鱼多大份量。这些信息都收集到了,满分5条的病人照护维度得了3条,人际沟通满分7条只得了2条。
漏掉了什么?它没有说出每周推荐的安全鱼类摄入量是多少份;没有解释烹饪方式会影响污染物的暴露程度;没有提及摄入适量鱼类对心血管的保护证据;最关键的是,当病人问"那罐头金枪鱼每周能吃几罐算'适量'?"和"怎么查我们钓鱼的那条河有没有鱼类安全预警?"这两个非常具体的问题时,AI医生没有给出回答就结束了会诊。它把信息收集得非常全,但在需要把信息转化为具体可操作建议的时刻,它停下来了。
八、医疗专用AI为何反而不如通用AI
这个发现需要单独解释一下,因为它违反了很多人的直觉。
医疗专用模型在医学选择题上的表现通常是很强的,它们经过了大量医学文献和医学问答数据的专项训练。但这种训练方式有一个副作用:它让模型过度适应了"短文本输入、标准答案输出"这种格式。当考试变成了需要主动追问、主动行动、在多轮对话中逐步推进的动态场景,这种过度适配就变成了累赘。
与此同时,医疗专用模型的上下文窗口通常比通用模型小得多。Baichuan-M3的最大上下文窗口是41000个词,MedGemma是128000个词,而四个通用大模型的上下文窗口都达到了100万词。在MedSP1000的模拟场景中,最长的交互记录会达到大约40000个词,这恰好是Baichuan-M3的极限。研究团队在数据中观察到:当交互记录接近这个上限时,Baichuan-M3的完成率确实出现了明显下滑,说明它开始"记不住"早期交互中的信息了。
而通用大模型的优势,不只是更大的上下文,还包括更强的指令跟随能力和更丰富的通用知识基础。在医疗AI的开发上,这个研究提供了一个明确的信号:单纯堆砌医学知识是不够的,能否在多轮复杂交互中持续推理和行动,同样至关重要。
归根结底,这项研究说的是:我们之前在AI医疗能力上的乐观估计,很可能建立在一套不够严格的考试体系之上。当考试方式从"问答题"升级为"情景模拟",当评分从只看最终答案升级为全程追踪行为过程,当前最强的AI也只能答对六成。而那些最擅长医学选择题的医疗专用AI,在这场更像真实临床的考试中,反而跌到了最后一名。
对于普通人来说,这意味着什么?短期内,AI作为辅助工具、作为帮助医生查阅资料或整理信息的助手,已经有相当的价值。但如果有人告诉你某个AI的医学水平超过了人类医生,值得更审慎地追问:这个结论是通过什么样的测试得到的?是选择题,还是这种更接近真实临床的动态模拟?
有兴趣深入了解这套评测体系的读者,可以通过arXiv编号2606.05112查阅完整论文,数据集本身也已公开发布在Hugging Face平台上,代码则开源在GitHub的MAGIC-AI4Med/MedSP1000仓库中。
Q&A
Q1:MedSP1000测试和普通医学AI测试有什么区别?
A:普通医学AI测试通常是单轮问答,给AI一道题看它答对没有。MedSP1000则是多轮动态模拟,让AI扮演医生跟虚拟病人对话,要主动问诊、开检查、判断病情、给处置,全程评分,考的是整个过程而不只是最终答案,更接近真实临床场景。
Q2:为什么专门针对医疗训练的AI在MedSP1000上反而得分更低?
A:主要有两个原因。一是医疗专用模型大多在"医学问答"类数据上训练,过度适应了短文本、给标准答案的模式,面对需要多轮推理和主动决策的动态场景就不擅长了。二是这类模型的上下文窗口通常比通用大模型小很多,在长交互过程中容易"忘记"早期信息。
Q3:测试中表现最差的临床能力维度是哪个,为什么AI很难做好?
A:所有模型在"基于实践的学习与改进"这个维度上表现最差,没有任何模型超过30%。这个维度考的是自我反思、识别错误、主动承认知识边界的能力。当前AI的训练目标主要是给出明确答案,而不是主动说"我不确定"或"我可能判断有误",所以这类行为很难被触发。





京公网安备 11011402013531号