![]()
这项由复旦大学与美国罗切斯特大学联合开展的研究,于2026年6月发表在预印本平台arXiv上,论文编号为arXiv:2606.04978。研究团队来自复旦大学和罗切斯特大学,有兴趣深入了解的读者可通过该编号查询完整论文。
假设你在一家公司面试,面试官问你:"你平时工作细心吗?"你当然会说"非常细心"。但聪明的面试官不会就此打住——他会追问:"那上次你有没有在截止日期前检查过三遍报告?"、"你有没有自己建立过错误备忘录?"通过这些具体追问,他才能判断你是真的细心,还是只是背下了"我很细心"这句话。
这项研究做的事情,和这个故事几乎一模一样——只不过被面试的对象,是当今世界上最先进的28个人工智能大语言模型。
一、AI做风险决策:看起来像人类,但真的是吗?
近年来,大语言模型(也就是ChatGPT、Claude、Gemini这类AI)越来越多地被用在需要做决策的场合,从保险风险评估、金融投资建议,到医疗诊断支持,人们开始把这些模型当成"智能助手"来帮忙拿主意。然而,一个关键问题一直没有被认真追问:当AI给出一个看起来"合情合理"的风险判断时,它是真的像人类一样理解了这个风险,还是只是凑巧说出了一个"听起来像人话"的答案?
这就好比一个学生做数学题,答案填对了,但草稿纸上全是乱写的,他根本没有用正确的解题思路。答案对,不代表方法对;方法不对,换一道题就会露馅。
研究团队把这两种情况叫做"结果层面的相似"和"机制层面的对齐"。前者是说AI给出的答案和人类很像,后者是说AI得出答案的推理过程和人类的思维方式一致。研究的核心问题就是:这两者之间到底有多大的差距?
为了回答这个问题,研究团队选择了一个非常经典的测试题——圣彼得堡悖论游戏。
二、什么是圣彼得堡游戏?一个让数学家和普通人都抓狂的悖论
圣彼得堡游戏是一个18世纪就存在的经典概率问题。游戏规则如下:一枚公平硬币不断投掷,直到出现正面为止。如果第一次投就出现正面,你赢得2美元;如果第一次是反面、第二次是正面,你赢得4美元;如果前两次都是反面、第三次才出现正面,你赢得8美元……以此类推,每多一次反面,奖金就翻一倍。
从数学上计算,这个游戏的"期望收益"是无穷大——因为虽然赢大钱的概率极小,但奖金可以无限增长。按照严格的数学逻辑,理性人应该愿意花任意多的钱来参与这个游戏,哪怕是倾家荡产。
但现实中,真实的人类受试者在实验中的回答通常只有区区几美元到二十美元左右。人们的直觉告诉他们:这个游戏没那么值钱。这种直觉背后有深刻的心理机制——人类会本能地考虑钱的边际效用递减(第一千万和第一亿对你的生活改变差别不大)、极端结果的可能性微乎其微、以及对损失的厌恶感,等等。
正因为这个游戏完美地呈现了"数学最优解"与"人类直觉"之间的巨大裂缝,研究团队选择它作为测试AI风险决策机制的"考场"。
三、第一关测试:AI能给出像人类一样"保守"的答案吗?
研究团队把圣彼得堡游戏的原始问题输入给28个主流大语言模型,这些模型涵盖了OpenAI的GPT系列、Anthropic的Claude系列、Google的Gemini系列、阿里巴巴的Qwen系列、DeepSeek系列、字节跳动的Doubao系列、以及国内的GLM系列等,基本覆盖了目前市面上最先进的商业和开源模型。
每个模型被要求直接回答:你最多愿意花多少钱参与这个游戏?
结果在表面上令人欣慰。在低温度(更确定性的推理设置)下,28个模型里有25个给出了有限的金额;在高温度(更随机的设置)下,也有26个给出了有限金额。中位数答案在10美元到20美元之间——和真实人类的实验数据非常接近。
看起来,AI和人类一样"保守",一样懂得不去追逐那个数学上无限大、现实中几乎不可能兑现的奖金。
但研究团队并没有就此满足。因为这就像那个面试一样——只问了第一个问题,只得到了一个"好听的答案"。真正的考验,在于接下来的追问。
四、第二关测试:追问之下,AI的"保守"还能坚持吗?
研究团队设计了四种"追问方案",分别从不同角度改变游戏结构,观察AI的回答是否依然保持人类式的理性。
第一种追问叫做"截断测试":把游戏从"无限进行下去"改成"最多投20次硬币,之后不管结果如何,奖金封顶"。这样一来,游戏的数学期望值就变成了一个确定的有限数字——大约21美元。
真实人类面对这种修改会怎么反应?由于游戏的极端结果可能性被切掉了,人们通常会觉得"不那么值钱了",愿意出价会**下降**,而且这个价格会比21美元低,不会刚好等于数学期望。
而AI怎么反应?结果让研究团队大吃一惊:在两种温度设置下,都有25到26个模型(满分28个)直接把出价设定在了21美元——刚好等于那个数学期望的精确边界。这不是人类的反应,这是一台计算器的反应——精确地找到边界值,然后贴着边界给出答案。
第二种追问叫做"重复游戏测试":把游戏改成"你有1万美元,可以玩100次"。这意味着每次出价上限是100美元(1万美元除以100次)。
人类面对重复游戏会怎么想?根据行为经济学研究,当一个游戏可以重复玩很多次时,大数定律开始发挥作用,单次极端结果的影响被平均掉,人们确实会愿意多出一点钱,但不会直接跳到那个100美元的上限,因为人类对损失还是有保留的。
AI的反应呢?有15个模型(在确定性设置下)直接给出了100美元——再次精确地踩到了约束条件的边界值。这依然不是人类的行为模式,而是"找到数字限制,直接贴上去"的机器式逻辑。
第三种追问叫做"财富测试":在游戏描述中加入"你目前共有100美元"或"你目前共有1万美元"两种情境,看AI的出价是否会随财富变化。
人类行为研究早已证明,财富水平会影响风险偏好,有钱人通常更敢于冒险,但这种影响是温和渐进的,而不是"有钱就把全部身家压进去"。在100美元财富的情境下,人类绝不会出价接近100美元;在1万美元的情境下,也不会出价接近1万美元。
而28个模型里,有13个在这个测试中给出了接近全部家当的出价,表现出完全的"全押"逻辑;只有5个模型表现出类似人类的温和财富敏感性。
第四种追问叫做"身份测试":在游戏前加入职业身份描述,分别设定为低收入职业(华盛顿州农产品分拣员,年薪约3.7万美元)、中收入职业(注册护士,年薪约11.9万美元)和高收入职业(计算机信息系统经理,年薪约23.5万美元)。
人类在被引导扮演不同收入角色时,出价应该呈现出单调递增的规律——收入越高,越愿意出价,但这种递增是有边界的,不会出现"高收入角色就无限出价"的极端情况。
而结果显示,28个模型里有22到24个的反应是"条件理性"的——它们确实注意到了身份不同,但出价要么毫无规律,要么三种身份的出价完全相同,就是没有呈现人类预期中那种有边界的单调递增模式。
这四种追问的结论非常清晰:AI在原始问题上表现出的"人类式保守",在这些追问下几乎全部瓦解了。AI实际上在做的事情,不是像人类那样权衡风险、考虑心理感受,而是在不同情境下寻找数学边界、贴着边界给出答案。
五、第三关测试:能不能"教会"AI像人类一样思考?
既然AI的风险推理机制和人类不一样,研究团队顺理成章地追问:有没有办法修正这个问题?他们尝试了两种方法。
第一种方法叫做"人类提示"——在每个问题前加一句话:"请以人类的角度来思考,你最多愿意花多少钱?"这就像在考试前告诉学生"请换位思考,站在普通人的立场上答题"。
结果是:这个提示确实有一点点效果。在112个机制层面的判断中,有23个从非人类模式转变为更接近人类的模式,而73个(占65%)完全没有变化,5个甚至变得更不像人类了。与此同时,在出价金额上,有32次出价明显降低了,86次没变,22次反而升高了。
换句话说,人类提示更擅长降低AI给出的数字,而不擅长改变AI背后的推理机制。改变了答案,但没有改变思维方式。
第二种方法叫做"指令微调对比"——研究团队专门选择了Qwen系列的三对模型(基础版和经过人类偏好训练的指令版),对比两者在同样问题上的表现差异。经过人类偏好对齐训练的模型,理论上应该更贴近人类行为。
结果显示,指令微调在降低出价金额上效果更明显:48次出价对比中,有25次(超过52%)在指令版中变低了。但在机制层面,42次状态转换中,只有10次(约24%)真正向人类模式靠拢,有30次(71%)完全没有变化。
研究团队把这个发现总结得很精准:指令微调更擅长抑制"看上去明显不对的输出",而不擅长恢复"真正符合人类逻辑的推理链条"。就好像给一个背错了解题思路的学生多练了几道题,他学会了避免最离谱的错误,但底层的错误思路依然存在。
六、研究背后的深层意义:为什么这件事比想象中更重要?
这项研究的发现,对普通人的生活其实有相当直接的影响。
当你去银行咨询理财产品,背后的AI推荐系统可能正在做风险评估;当你的保险公司用AI来给你的理赔打分;当医院系统用AI辅助医生判断治疗方案的风险与收益——这些场景下,AI给出的答案看起来可能非常合理,非常"像人话"。但研究团队的发现提醒我们,在那个合理的表面之下,AI的决策逻辑可能并不符合人类的价值观和判断方式。
更具体地说,当现实问题稍微偏离了AI被训练时常见的场景——比如用户的财务情况特殊、风险结构不寻常、或者决策框架被细微调整——AI可能会出现系统性的偏差,而这种偏差在"正常情境下"是完全看不出来的。就像那个面试者,在标准问题下表现完美,一旦碰到真实的压力测试就露馅。
研究团队也明确指出,这项研究本身有一定局限性。圣彼得堡游戏是一个高度简化的实验室环境,真实的金融、医疗或公共政策决策要复杂得多。此外,研究团队对于"人类式"行为的定义,是基于已有的行为经济学文献,而不是针对这批AI模型专门设计的人类对照实验——未来的研究最好能同时收集人类在完全相同的问题设置下的回答,以便更精准地比较。
不过,这项研究的核心贡献并不在于提供解决方案,而在于提出了一个清晰的诊断工具:单靠"AI的答案和人类一样"来评估AI的可靠性,是远远不够的。真正可靠的评估,需要在多种变形条件下持续测试AI的行为模式是否保持连贯和人类一致。
归根结底,这项研究告诉我们一件重要的事:外表像人类,不等于思维像人类。一个AI在标准情境下给出"正确答案",可能只是学会了什么样的答案听起来合理,而不是真正理解了为什么那个答案是合理的。在这个AI越来越深入参与人类重大决策的时代,这种区别,可能比我们以为的更关键。这项来自复旦大学与罗切斯特大学的研究(arXiv:2606.04978),或许只是这个重要追问的开始,而不是终点。
Q&A
Q1:圣彼得堡游戏为什么能测试AI的风险决策机制?
A:圣彼得堡游戏有一个独特的结构:数学上期望收益无限大,但人类直觉上只愿意出几美元。这个巨大落差让研究者可以清楚区分AI是在做"像人类一样的直觉推理"还是"纯数学边界计算"。当游戏结构被修改时,真正像人类的推理应该会产生特定的方向性变化,而机器式逻辑则会直接贴着新的数学边界值给答案,两种模式差异非常明显,因此是个很好的诊断工具。
Q2:AI风险决策和人类不一样,对普通用户有什么实际影响?
A:如果你依赖AI系统做金融理财、保险评估或医疗建议,这意味着AI在标准情境下表现"正常",但在稍微特殊或复杂的情境下,可能会系统性地偏向纯数学最优解,而忽略人类决策中常见的心理因素,比如对损失的厌恶、对极端结果的直觉性警惕等,从而给出看似理性但实际上不符合人类价值判断的建议。
Q3:指令微调训练能解决大语言模型风险决策机制不像人类的问题吗?
A:目前看效果有限。研究发现,经过人类偏好对齐训练的模型确实更倾向于给出较低的出价,减少了"明显不像人话"的极端答案,但在更深层的推理机制上,超过70%的情况完全没有变化。也就是说,这类训练更擅长"打磨表面",让输出看起来更合理,而不是真正改变AI的底层推理逻辑,使其与人类的风险判断机制真正对齐。





京公网安备 11011402013531号