当前位置: 首页 » 资讯 » 科技头条 » 正文

阿福的“医生把关”,能不能让“Al误诊”悲剧少一些?

IP属地 中国·北京 略大参考 时间:2026-06-18 12:15:35



AI能迸发出多大的能量,既取决于算力、数据、架构,也取决于人。

作者|杨知潮

AI已经成为全世界最大的“医师”。上至老人,下至学生,只要有不舒服,都知道问问AI。

它“行医”三年,解决了很多问题,但也带来了一些问题。

很多普通人搞不清通用AI和专业AI的区别,拿着日常的通用语言型AI当万金油用,导致的失误已经令人惋惜:有人说手指被夹断后,去找某通用AI查资料,按照AI回答用盐水保存断指,导致彻底无法再植。有网友拿着同样问题去问专业AI,得到的回答是千万不能用盐水保存断指。

AI很好用,但把AI当成唯一的主治医师,对于一个还在快速成长的技术来说,也许有些揠苗助长了。

让真人医生加入,AI先答,需要再请医生把关,无疑更现实靠谱。

01 生物老师能看病吗?

2025年,谷歌的一款AI工具——NotebookLM开始爆火。

在一众优秀的通用模型里,这个后发者却出乎意料的风靡,原因很简单:专业且精准。

NotebookLM只基于上传的有限资料回答问题,这就像一个终身只研究一本书的学者,肯定比所谓的博学家更加专业。而同样的一篇资料,让通用AI工具研究,不仅理解深度不够,甚至错误和幻觉不断。



连查资料都会出现错误,通用模型在医疗方面的失误也就不难理解了,它们当然是世界上最强大的模型,但它们只是一个“博学家”。如果专用医疗AI工具是“全科医生”,那通用AI最多相当于生物老师,甚至生物老师都不算,只能算是县里的秀才。

生物老师和秀才能看病吗?当然比普通人强,但作为专业医生,远远不够。

相比之下,专业的“硅基医生”,也就是专业医疗AI工具的准确度有明显优势。前几天,长征医院在皮肤科诊间发起100名患者实测:这些患者候诊时先将皮肤问题拍照给阿福获得解答,患者看完医生后,发现阿福的识别判断和医生诊断高度吻合,基本一致率超过90%。



但即便如此,专业医疗AI也难以替代医生。就像自动驾驶的安全率已经很高,但仍然没有一家主流车企敢说自己实现了L5级别的自动驾驶。因为涉及人身安全的事,0.1%的风险也是不能容忍的。

况且眼下的生成式AI的回答能力,高度依赖提问的水平。

牛津大学做了一项研究:AI在标准化医疗问答中的理论准确率可达 94.9%。

看起来似乎非常准确?但很遗憾,这是理想环境。在模拟真实临床场景或向大众提供健康建议时,准确率会大幅跌。

原因很简单:大多数用户根本没有给出正确问题的能力。

这是眼下LLM的特性决定的,AI医疗的结果是否准确,很大程度取决于用它的人。而当越来越多普通人把问AI当做习惯,AI怎么可能要求用户自己具备很强的提问能力?

真人医生的介入,自然成了更优解。

02 AI有多强,取决于人

每个独立坐诊的医生,都是从“打杂”做起的。作为人类创造的学生,AI也没道理不遵守医生的规矩。

就像刚刚毕业的本科生一样,AI当然可以参与到医疗健康服务中,但真正的“主治医生”,仍然由真人担任。

最近阿福新试水的“医生把关”受到热议。拍完皮肤给AI解答以后,可以邀请三甲医院的医生再进行复核,做一道把关。

这个医生把关的功能还处在探索期,暂时仅限于皮肤类咨询。医生把关的最直接价值,当然是准确度的提升。专业医生和专业AI的同时确认,当然比单纯的AI更加可靠。

如果医生认为患者提供的信息不足,还可以进一步让用户补充。这是真人目前相对AI的一个巨大优势,而AI虽然名字里带了“生成式”三个字,但非常需要用户本人的引导。

曾预言互联网未来的凯文·凯利认为,以后最好的医疗服务既不单纯来自AI,也不单纯来自真人医生,而是两者的结合。“AI+医生”,是他眼中最理想的医疗模式。



真人医生与AI的结合,才刚刚开始。具体未来能够拓展到多少领域,能够衍生出多少种服务,都还不得而知。

但可以明确的是,真人的加入,有机会从整体上优化AI医疗的体验。准确度、流畅度、效率、体验,都可能因为真人医生的加入而被优化。

不久前,诺贝尔物理学奖得主Giorgio Parisi利用Claude证明了一个12年未被证明的猜想。整个论证过程,他都帮AI指出了方向,甚至纠正了AI错误的论证。在这个故事里,AI固然强大,但人的价值同样无可替代。



AI是人创造的,AI也是由人来使用的。它能迸发出多大的能量,既取决于算力、数据、架构,也取决于人。

头图来源|AI制图

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。