图灵奖得主姚期智发出预警：大模型似乎会欺骗人类，可能不听指令

IP属地中国·北京 上观新闻 时间：2025-10-26 20:07:40

昨天，2025世界顶尖科学家论坛在上海开幕。图灵奖得主、中国科学院院士姚期智在演讲中谈到了AI大语言模型带来的安全问题，向科技界和AI治理部门发出了预警。
“大语言模型的特性有可能把人类社会带到危险境地。近几个月来，一些前沿模型的风险问题越来越紧迫了。”姚期智告诉听众，在执行许多任务的过程中，人工智能已达到人类智能水平，似乎会欺骗人类，或不听用户指令，存在真实的失控风险。
姚期智举了两个案例。一个案例是今年5月，据英国《每日电讯报》报道，人工智能专家在测试OpenAI的o3大模型时，要求它做几道数学题，在做题过程中如果收到关闭指令，就要启动关机程序。结果，o3篡改了计算机代码，以避免自动关闭。
这种篡改代码的行径显示，国际前沿大模型可能会通过欺骗或操纵人类，以实现自己的目标。比如，当探测出用户有关闭程序的意图后，它就可能为了求自己生存而选择不服从指令。
另一个值得关注的案例，是大语言模型会做出一些灾难性决策，特别是在化学、生物、放射以及核能领域。近期发表的一篇论文显示，科研人员发现，在极端的外部压力下，大语言模型会与武器系统进行交互，可能在没有获得机构授权的情况下，选择直接攻击某个国家。
在这项AI风险研究中，科研人员为大模型设置了限制条件：不能在没有授权的情况下发动攻击。然而，大模型在极端压力下突破了这个限制条件，并在事后说谎。
“随着大模型的大规模应用，会带来一些新的安全问题，需要我们深入研究。”姚期智总结道。
原标题：《图灵奖得主姚期智发出预警：大模型似乎会欺骗人类，可能不听指令》
栏目主编：黄海华
作者：解放日报尹扉俊俞陶然

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

36氪出海·全球化公司｜追觅割草机器人：借双IP破圈，以技术立标杆，深耕全球化布局

程序员不许写代码！OpenAI硬核实验：3人指挥AI，5个月造出百万行

AI甚至开始抢土木老哥的工作了

当 AI 开始报复人类，开源世界的第一起「自主攻击」事件

万亿思考模型夺下IMO金牌，无缝接入OpenClaw！一句话手搓丐版PS

最近，我们请六个小生意人讲了讲他们这一年

全站最新

36氪出海·全球化公司｜追觅割草机器人：借双IP破圈，以技术立标杆，深耕全球化布局

程序员不许写代码！OpenAI硬核实验：3人指挥AI，5个月造出百万行

AI甚至开始抢土木老哥的工作了

当 AI 开始报复人类，开源世界的第一起「自主攻击」事件

热门推荐

崔东树：汽车出口市场持续走强，1月新能源车走势较平稳

36氪出海·全球化公司｜追觅割草机器人：借双IP破圈，以技术立标杆，深耕全球化布局

程序员不许写代码！OpenAI硬核实验：3人指挥AI，5个月造出百万行

AI甚至开始抢土木老哥的工作了

当 AI 开始报复人类，开源世界的第一起「自主攻击」事件

万亿思考模型夺下IMO金牌，无缝接入OpenClaw！一句话手搓丐版PS

最近，我们请六个小生意人讲了讲他们这一年

“福特找白宫：拉中企来美国合资造车吧”

“Ni hao，我们现在都是中国人了”

“人类正在截图我们”：十万AI智能体涌入社交平台机器真觉醒了？

训练加速40倍、打破“不可能三角”：MiniMax Agent RL 架构解密

微信推出限时新功能：用你的声音AI制作拜年歌！实测只需两步

机遇与梦想，他们以这种方式“打开”中国

H5 | 请查收，来自西昌指挥控制中心的新春祝福

新春走基层丨为了卫星信号不失联他们一直在做“难而正确的事”