当前位置: 首页 » 资讯 » 科技头条 » 正文

图灵奖得主姚期智发出预警:大模型似乎会欺骗人类,可能不听指令

IP属地 中国·北京 上观新闻 时间:2025-10-26 20:07:40


昨天,2025世界顶尖科学家论坛在上海开幕。图灵奖得主、中国科学院院士姚期智在演讲中谈到了AI大语言模型带来的安全问题,向科技界和AI治理部门发出了预警。

“大语言模型的特性有可能把人类社会带到危险境地。近几个月来,一些前沿模型的风险问题越来越紧迫了。”姚期智告诉听众,在执行许多任务的过程中,人工智能已达到人类智能水平,似乎会欺骗人类,或不听用户指令,存在真实的失控风险。

姚期智举了两个案例。一个案例是今年5月,据英国《每日电讯报》报道,人工智能专家在测试OpenAI的o3大模型时,要求它做几道数学题,在做题过程中如果收到关闭指令,就要启动关机程序。结果,o3篡改了计算机代码,以避免自动关闭。

这种篡改代码的行径显示,国际前沿大模型可能会通过欺骗或操纵人类,以实现自己的目标。比如,当探测出用户有关闭程序的意图后,它就可能为了求自己生存而选择不服从指令。

另一个值得关注的案例,是大语言模型会做出一些灾难性决策,特别是在化学、生物、放射以及核能领域。近期发表的一篇论文显示,科研人员发现,在极端的外部压力下,大语言模型会与武器系统进行交互,可能在没有获得机构授权的情况下,选择直接攻击某个国家。

在这项AI风险研究中,科研人员为大模型设置了限制条件:不能在没有授权的情况下发动攻击。然而,大模型在极端压力下突破了这个限制条件,并在事后说谎。

“随着大模型的大规模应用,会带来一些新的安全问题,需要我们深入研究。”姚期智总结道。

原标题:《图灵奖得主姚期智发出预警:大模型似乎会欺骗人类,可能不听指令》

栏目主编:黄海华

作者:解放日报 尹扉俊 俞陶然

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。