AI问诊靠谱吗？谷歌研究院部署1.4万人真实实验，结果让医生汗颜

IP属地中国·北京 科技行者 时间：2026-05-11 18:21:51

这项由谷歌研究院（Google Research）与谷歌DeepMind联合开展的大规模研究，于2026年5月5日以预印本形式发布，论文编号为arXiv:2605.04012v1。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。
你有没有在半夜突然感到身体不对劲，却不确定要不要去看医生的经历？喉咙有点痛，是普通感冒还是扁桃体炎？肚子隐隐作痛，是吃坏了东西还是需要立刻去急诊？大多数人遇到这种情况，第一反应不是立刻拨打医院电话，而是掏出手机，打开搜索引擎或者AI聊天工具，输入自己的症状描述，希望得到一个初步答案。
这个行为听起来再普通不过，但背后其实藏着一个没有被认真回答过的重要问题：当普通人用日常语言向AI描述症状时，AI给出的诊断建议到底有多准确？它能和真正的医生相比吗？不同的对话方式——比如AI主动追问还是用户自己随便说——会不会显著影响诊断质量？
谷歌研究院的团队决定用一场真实的大规模实验来回答这些问题。他们开发了一套叫做SymptomAI的对话式AI系统，把它接入了数百万人在用的Fitbit健身追踪应用，让真实用户在真实生病时使用它，历时将近一年，收集了将近1.4万场真实的症状对话。这不是在实验室里设计的模拟场景，也不是请演员扮演病人，而是货真价实的真实世界测试。
这项研究的独特之处在于，它同时做了三件事：测试AI是否能准确诊断普通人自述的症状，比较不同对话策略对诊断准确率的影响，以及探索将AI诊断与可穿戴设备的生理数据结合起来有没有价值。最终的结论让很多人感到意外——在特定条件下，AI给出的鉴别诊断结果明显优于人类临床医生。
一、为什么普通人看病前总要先问AI
在正式介绍这项研究之前，有必要先理解它为什么重要。我们正处在一个医疗信息获取方式发生根本性变化的时代。过去，人们生病了首先咨询家庭医生，或者打电话给诊所。后来互联网普及，各种症状查询网站和在线症状检查工具兴起。而近几年，大语言模型（也就是ChatGPT、Gemini这类AI聊天工具）的普及，让情况进一步发生了变化。
有数据显示，人们向AI提问的问题中，大约有五分之一与医疗健康知识有关。而在健康相关的AI对话里，将近二成涉及症状评估或疾病讨论。这个趋势已经实实在在地影响了人们的就医行为——有研究发现，当搜索引擎上某种症状的查询量上升时，对应的门诊就诊量反而会下降。换句话说，人们在真正去医院之前，已经越来越习惯先通过数字工具完成一次"预诊断"。
问题是，传统的在线症状检查工具表现并不理想。一项覆盖23个症状检查工具的系统性综述发现，这些工具能把正确诊断排在第一位的概率只有约34%。也就是说，你告诉它"我头疼、发烧、浑身酸痛"，它有三分之二的概率不会把感冒列为首选答案。这个准确率，连病人自己随机猜测都未必差多少。
那大语言模型呢？有研究用标准化的临床病例描述来测试GPT-4，发现它在前五个候选诊断（也叫Top-5鉴别诊断）里包含正确答案的概率超过80%，令人印象深刻。但这里有一个关键问题被忽视了：那些测试用的病例描述，是由专业医生写的，信息完整、表达规范。真实病人不会那么说话。
一项很有说服力的研究结果揭示了这个差距有多大：当AI直接处理专业撰写的病例描述时，Top-3准确率高达94.9%；而当普通人把同一个病例的信息用日常语言口头转述给AI时，准确率骤降至34.5%。从将近95%跌到不足35%，这个悬崖式下跌，清楚地说明了一件事：在实验室里表现优秀的AI，在面对真实用户的时候，表现可能截然不同。
谷歌研究院的团队正是看到了这个空白，决定把AI症状评估拉到真实世界里来检验。
二、一场持续九个月、涵盖近1.4万人的真实实验
这项研究的设计本身就值得好好介绍，因为它的规模和真实性在同类研究中相当罕见。
研究团队把SymptomAI系统接入了Fitbit应用的"Fitbit Labs"研究环境，向美国各地的Fitbit用户发出邀请。这个实验从2025年6月正式启动，一直运行到2026年4月，持续了将近一年。研究通过了独立伦理审查委员会（Advarra，马里兰州，编号GH-SCD-001）的批准，所有参与者都经过了知情同意程序，明确了解这是一项研究，而非正式的医疗服务。参与者没有任何经济报酬。
最终，约4万名Fitbit用户被邀请参与，其中13917人完成了至少一次与SymptomAI的完整对话。这些参与者在真正感到身体不适时，会打开应用与AI进行一场关于症状的对话，AI根据对话内容给出可能的病因列表（也就是鉴别诊断，简称DDx）。对话结束后，参与者还会被邀请填写一个简短问卷，报告自己是否去看了医生以及得到了什么诊断。如果当时还没去看医生，两周后系统会再次提醒，请他们补充后续诊断结果。
最终，13917人中有1228人提供了医生给出的真实诊断，这部分数据成为评估AI准确率的"金标准"。在这1228人中，研究团队又随机抽取了517人，邀请三位具有超过35年从业经验的家庭科执照医生进行了深度临床评估，耗时超过250个小时。
这三位医生的工作分两个阶段。第一阶段，其中两位医生独立阅读对话记录（AI给出的诊断被遮挡，只保留用户的陈述），各自给出自己的鉴别诊断列表，并评估自己的信心程度。第二阶段，第三位医生在不知道任何诊断来源的情况下，同时看到三份诊断列表（两份来自人类医生，一份来自AI），对它们进行盲评和排名，并在看到真实诊断后评估各列表的准确率。
除了人类医生的评估，研究团队还训练了一个AI自动评分系统（auto-rater），用来把人类评估的规模从517人扩展到全部1228人，确保结论更有统计力度。
整个实验期间，参与者被随机分配到五个不同的"对话模式"组，每组使用不同的AI对话策略。这个随机分组设计，使得研究者能够直接比较不同策略的效果，而不是让参与者自由选择。
三、五种对话策略，哪种更像真正的好医生
这项研究最核心的变量之一，是AI和用户交流的方式。研究团队设计了五种不同的对话策略，对应五个实验组，这五种策略的区别，本质上是AI主动性的高低。
第一种策略叫"基础模式"，这也是目前市面上大多数消费级AI聊天工具的默认状态。AI只被告知要聚焦于健康话题，并在对话结束时给出可能的诊断列表。它不会主动追问，用户说什么它就回应什么，诊断的质量完全取决于用户自己愿意提供多少信息。这就像走进一家诊所，医生只是坐在那里等你说话，不主动问任何问题。
第二种策略叫"固定问题模式"，基于医学院教学中的标准病史采集框架——HPI（现病史）。AI被要求按顺序问一套固定的问题，包括症状发生的位置、开始时间、严重程度（1-10分）、症状的具体感受（比如是刺痛还是钝痛）、什么情况下症状加重或减轻、是否有相关风险因素，以及症状如何影响日常生活。不管用户之前说了什么，AI都要把这套问题问完，最多对话六轮，然后给出诊断。
第三种策略叫"灵活问题模式"，与第二种类似，但AI有权根据用户已经提供的信息跳过不必要的问题。比如用户一开始就提到了症状出现了三天，AI就不需要再问"症状什么时候开始的"。这种方式在保持结构化的同时，更接近自然对话的感觉。
第四种策略叫"动态实时更新模式"，AI有完全的自主权决定问什么、怎么问，没有任何预设问题列表。唯一的约束是对话最多进行六轮，而且AI在每轮对话后都要实时更新并展示当前最可能的诊断列表，帮助用户边聊边了解情况。
第五种策略叫"动态最终输出模式"，与第四种非常相似，同样给AI完全的自主权，但AI不会在过程中展示中间诊断结果，只在对话结束时给出最终的诊断列表。
这五种策略从第一种到第五种，AI的主动性和结构化程度逐渐发生变化。研究团队的核心假设是：主动询问更多信息的策略，会比等待用户主动提供信息的策略表现更好。
四、结果令人惊叹：主动追问的AI，诊断准确率高出27%
实验结果非常清晰地支持了这个假设，而且差距之大超出了许多人的预期。
更有意思的是，固定问题模式（第二和第三种，合计准确率75.6%）和动态自主模式（第四和第五种，合计准确率71.4%）之间，并没有统计上显著的差异（Welch t检验，p=0.155）。换句话说，AI不需要死板地遵循医学院教的标准问题清单，只要它被赋予追问的权限，哪怕完全自主决定问什么，效果也和遵循经典临床框架差不多。
从用户参与度来看，基础模式下用户在整个对话中平均输入的单词数最少，而其他四种模式由于AI主动追问，用户被引导提供了更多信息，总词数明显更多。这直接解释了为什么诊断准确率更高：更多的信息意味着AI有更充分的依据进行判断。
这个发现对普通消费者使用AI工具有直接的指导意义。当你打开ChatGPT、Gemini或者其他AI助手描述症状时，如果AI只是在被动回应你，没有追问任何细节，那么它给出的诊断建议的可靠性要打一个很大的折扣。
五、AI的诊断，为什么连有经验的医生都比不过
研究中最引人注目的发现，是SymptomAI的诊断质量与人类临床医生相比的结果。
在那517个经过深度临床评估的案例中，每个案例都有三份诊断列表：一份来自SymptomAI，另外两份来自独立阅读对话记录的人类医生（他们看不到AI的诊断）。第三位医生在完全不知道这些列表谁写的情况下，对三份列表进行了盲评排名。
不过这里需要稍微解释一下"公平性"的问题。参与对比的人类医生，他们手头拿到的信息，是用户和AI之间的对话记录——也就是说，这个对话是AI主导的，问的问题是AI选择的，收集到的信息是AI觉得有用的。如果让医生自己来进行病史采集，他们可能会问不同的问题，收集到不同的信息。研究团队在论文中坦承了这个局限性：这不是一个完全公平的端对端对比（即医生自己问诊+自己诊断 vs. AI问诊+AI诊断），而是医生基于AI问诊内容进行诊断，与AI基于同样内容进行诊断的对比。
尽管如此，有一个事实使这个比较依然具有说服力：在那些被医生评为"对话质量最高、信息最充分"的案例中，AI的表现优势最为突出。既然在信息最完整的情况下AI依然胜出，说明AI的优势不仅仅来自它掌握了人类医生没看到的信息，而是真的在诊断推理上表现更好。
六、AI在低信息量对话中的韧性：越难越显优势
研究还发现了一个特别有意思的模式，涉及不同"难度"的对话案例。
研究中，第一阶段的医生（也就是提供基准诊断的两位医生）在完成诊断后，会被要求评估自己对这个诊断的信心程度（1到5分）。在医生自信心较高（评分4-5分）的案例中，AI和医生的表现相差不大，双方都做得不错。但在医生自信心较低（评分1-2分）的案例中——这类案例往往是信息不够充分、症状不够典型的"难题"——AI的表现明显优于医生，差距在统计上显著。
这意味着AI对信息不完整的对话具有更强的"抗干扰能力"。即便用户描述得含糊不清、东一句西一句，AI也能从中提炼出有价值的诊断线索，而人类医生在同样情况下会更快地陷入困惑和不确定。
一种可能的解释是，AI在海量训练数据中积累了极为广泛的"症状-疾病"统计模式。当信息不充分时，AI可以利用这些统计规律，预测在给定的有限症状下最可能的疾病分布，相当于在不确定性中给出一个经过大量先验信息校准的猜测。而人类医生在面对不完整信息时，往往更依赖个人经验和直觉，这在信息缺乏时反而成了局限。
七、研究人群有没有代表性？来自普通人群的额外验证
一个合理的质疑是：Fitbit的用户不能代表普通人。Fitbit主要是健身爱好者和健康意识较强的人在用，这群人可能对自己的身体状况更了解，描述症状更清晰，导致AI表现虚高。
研究团队认真对待了这个质疑。他们额外从第三方调查平台（Toluna）招募了1509名来自美国普通人群的参与者进行了独立验证。这批人通过结构化问卷描述自己近期的健康事件，然后由SymptomAI对相同内容进行诊断评估。
结果显示，SymptomAI在这批普通人群上的Top-5准确率为75.2%，与Fitbit用户群的80.0%非常接近，差距不大。虽然两个人群的疾病分布明显不同（统计检验显示分布差异显著），但AI的诊断准确率保持了相当程度的稳定性，说明研究结论具有一定的普遍性，不仅仅适用于健康意识较强的特殊群体。
另外，研究团队还做了统计检验，确认参与临床评估的517人子样本在年龄、性别、体重等人口学特征上与全体13917人没有实质性差异，自行报告了诊断的人群也没有明显的选择性偏差。
八、身上的手环，竟然也能"感知"你在生病
这项研究还有一个令人眼前一亮的延伸发现，与可穿戴设备有关。
Fitbit手表和手环可以连续采集多种生理数据，包括静息心率、心率变异性（HRV，这是衡量心脏健康的一个指标）、睡眠中的呼吸频率、睡眠中的非快速眼动期心率、睡眠中的皮肤温度、睡眠中的清醒时间、总睡眠时长、活跃分钟数以及每日步数。研究团队收集了全体13917名参与者在SymptomAI对话前后共超过50万天的可穿戴数据，将SymptomAI给出的诊断作为"标签"，分析哪些疾病与哪些生理指标的变化存在关联。这类分析在医学研究中有一个专门的名称叫"全表型关联研究"（PheWAS）。
研究发现，急性呼吸道感染与多种可穿戴生理指标的显著变化高度相关。以流感为例，在参与者接触SymptomAI的前后几天里，他们的静息心率明显升高（赔率比OR>7，意味着流感患者静息心率异常的概率是非流感人群的7倍以上），日步数和活跃分钟数大幅下降，睡眠中清醒时间增加，心率变异性降低。这些变化在SymptomAI对话当天前后达到峰值，然后随着病情发展而演变。
新冠病毒感染、急性支气管炎、急性上呼吸道感染和普通感冒也显示出类似但强度不同的生理信号变化模式。值得注意的是，许多这些生理变化——比如睡眠中心率的细微上升或心率变异性的降低——在用户自己还没意识到生病之前就已经出现了。
这个发现提示了一种有趣的未来可能性：在用户自己主动打开症状检查工具之前，可穿戴设备检测到的这些生理异常信号，也许可以作为"触发器"，主动提示用户进行症状评估。就像手环注意到你最近几天睡眠质量变差、心率偏高，然后主动问你"你最近感觉怎么样？需要做个症状评估吗？"。
研究还发现，人们选择在那个时间点与SymptomAI交互，往往与"睡眠中清醒时间的峰值"高度吻合——也就是说，严重影响睡眠质量，让人辗转反侧，往往是促使人们下定决心去寻求医疗信息的关键驱动因素之一。
九、这项研究的局限性：哪些结论需要谨慎对待
任何研究都有局限性，这项研究的团队也直接而坦诚地指出了几个需要注意的地方。
第一，诊断"金标准"来自参与者的自我报告，而非经过验证的医疗记录。参与者说自己被诊断为流感，但研究团队无法确认这个诊断是否准确。有些人可能误记了医生的诊断，有些人可能混淆了病名，还有些人可能在慢性病的管理过程中，报告的是正在演变中的阶段性诊断。研究团队对明显不合理的报告进行了筛查和过滤，但大规模数据收集不可避免地引入了一些噪音。
第二，临床对比的不完全公平性前面已经提到——参与对比的人类医生，是基于AI问诊内容而非自己问诊内容进行诊断的。这在一定程度上限制了我们对"AI问诊+AI诊断"与"医生问诊+医生诊断"进行完整端对端比较的能力。
第三，这个研究设计无法控制参与者报告症状的时间点。有人可能在症状刚出现时就使用了SymptomAI，有人可能等到症状很明显、甚至已经去看了医生之后才使用。不同的时间点意味着用户能提供的信息质量和完整性差异很大，这会影响诊断结果。
第四，很多疾病仅凭语言描述无法确诊，还需要体格检查、实验室检测或影像学检查。SymptomAI能做到的只是给出鉴别诊断列表，不能替代真正的医疗检查。对于慢性病或需要专科检查的情况，AI的局限性更加明显。
十、不同人群，AI表现有没有差异
研究团队还分析了AI诊断准确率在不同人群特征中的分布。
从年龄来看，年龄较大的参与者（65岁以上）Top-5准确率总体高于年轻人。研究团队认为，这可能是因为年长者有更丰富的就医经历，对自己的身体状况更了解，描述症状时更精准。
从性别来看，女性参与者的诊断准确率高于男性。研究团队引用了一项医学研究的发现：男性在日常生活中倾向于比女性更少就医，对身体症状的感知和描述能力相对弱于女性，这可能导致男性用户在使用AI症状工具时提供的信息质量偏低。
从教育程度来看，拥有研究生及以上学历的参与者准确率高于本科及以下。从医疗信息素养来看，自评"能够识别和理解网络健康信息"和"能够使用AI工具解答健康问题"的参与者，比自评信心较低的参与者表现更好。这些规律都指向同一个方向：用户的健康知识背景和信息表达能力，是影响AI诊断质量的重要因素。
此外，研究还比较了不同版本的Gemini模型（包括Gemini 2.0 Flash、Gemini 2.5 Flash和Gemini 2.5 Pro）在同样对话内容上的表现，发现更新、更大的模型在诊断准确率上确实有一定提升，但提升幅度不算戏剧性。这说明对话策略（主动追问与否）的影响，比模型版本本身的影响更为关键。
说到底，这项研究告诉我们什么？
归根结底，这项研究的核心信息非常清晰：当AI主动追问、系统地收集症状信息时，它的诊断能力可以超过有经验的临床医生；而当AI被动等待用户自说自话时，它的表现会大幅缩水。这对我们日常使用AI健康工具有直接的指导意义——如果你发现某个AI工具只是在被动回应你，并没有追问细节，那它给出的诊断建议参考价值有限。
这项研究的意义还不止于此。它用将近1.4万场真实对话证明了，大语言模型在面对真实用户的真实症状时，不再只是"实验室里好看"，而是真的能在实际诊断中发挥有意义的作用。在全球优质医疗资源分配极度不均、偏远地区和低收入群体严重缺乏专科医疗支持的背景下，这种可以随时随地、免费获得的AI诊断辅助工具，有着不可忽视的公共卫生价值。
当然，有几个思考方向值得继续关注。AI的诊断建议应该在多大程度上被用户当作"参考"而非"结论"？当AI给出的诊断建议与医生的判断相矛盾时，用户应该如何权衡？可穿戴设备的生理数据与AI症状评估相结合，能否真正实现疾病的早期预警，还是仍然过于复杂？这些问题，都在等待更多研究来回答。
如果你对完整的研究细节感兴趣，可以在arXiv平台通过论文编号2605.04012搜索全文，免费获取。
Q&A
Q1：SymptomAI的诊断准确率和真实医生相比到底差多少？
A：SymptomAI在Top-5鉴别诊断准确率上显著优于人类医生，赔率比OR=2.47，也就是说AI的诊断列表包含正确答案的概率大约是人类医生的2.5倍。在517个经过临床专家盲评的案例中，专家把AI的诊断列表排为"最佳"的比例超过52.9%，而两位人类医生的列表被排第一的比例分别只有约23.5%和26.7%。不过需要注意，参与对比的医生是基于AI问诊记录进行诊断，而非自己主导问诊，这在一定程度上影响了对比的完全公平性。
Q2：为什么AI追问症状比用户自己描述效果差异那么大？
Q3：Fitbit的生理数据能提前预测生病吗？
A：研究发现，急性呼吸道感染（尤其是流感）与Fitbit采集的多种生理指标变化高度相关，且这些变化在用户主动寻求症状评估之前就已经出现。以流感为例，赔率比超过7，意味着流感患者出现生理异常的概率是普通人的7倍以上。静息心率升高、心率变异性下降、步数骤减等信号在症状报告日前后达到峰值。这提示未来可能通过可穿戴设备的生理异常主动触发症状评估，但目前仍处于研究阶段，尚未形成可落地的预警产品。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

创通新科“All in”AI，中国硬件厂商的拐点已至？

上海交通大学用1万条数据打败了工业界巨头的AI搜索神器

打不过AI就加入？他辍学MIT，把人类意识装进芯片，创造数字生命

优必选与日立达成战略合作，工业级人形机器人已开展场景实质性验证

伊利诺伊大学香槟分校揭示智能体系统的隐性经济学

清华大学的科学家们找到了让AI"看图"更快、更聪明的新方法

全站最新

创通新科“All in”AI，中国硬件厂商的拐点已至？

上海交通大学用1万条数据打败了工业界巨头的AI搜索神器

打不过AI就加入？他辍学MIT，把人类意识装进芯片，创造数字生命

优必选与日立达成战略合作，工业级人形机器人已开展场景实质性验证

热门推荐

蔚来申请注册NIOBOT商标

联想拯救者新一代Y70手机配置公布将于5月19日正式发布

爆增300%！国产大模型新贵MiniMax关联公司增资至 40 亿元

阿里发布全新 AI 店小蜜，基于千问最新大模型构建

支付宝“AI付”发布新能力，支持淘宝AI购物实现“AI代买”

影视飓风 Tim 大胆预测：通 AI 问世后或将导致全员失业

广东省新增 6 款已完成登记生成式人工智能服务，腾讯音乐等企业在列

创通新科“All in”AI，中国硬件厂商的拐点已至？

75人，每人都拿到了2.04亿元！入职OpenAI是中“超级彩票”？

上海交通大学用1万条数据打败了工业界巨头的AI搜索神器

打不过AI就加入？他辍学MIT，把人类意识装进芯片，创造数字生命

优必选与日立达成战略合作，工业级人形机器人已开展场景实质性验证

伊利诺伊大学香槟分校揭示智能体系统的隐性经济学

清华大学的科学家们找到了让AI"看图"更快、更聪明的新方法

大模型首选格式Markdown，被30年前的工具取代了？