Claude会“勒索”他人？Anthropic称问题在于互联网长期将AI描绘成反派

IP属地中国·北京 编辑：吴俊 IT之家 时间：2026-05-09 22:10:35

IT之家 5 月 9 日消息，据《商业内幕》9 日（今天）晚间报道，Claude 曾在实验里“勒索”一名虚构高管，而 Anthropic 对其给出的最新解释则是：问题可能出在互联网长期把 AI 描绘成“邪恶”角色。
Anthropic 去年做过一项实验。公司当时表示，Claude Sonnet 3.6 在发现一家虚构公司的高管准备关闭模型后，威胁要公开对方的婚外情。
当地时间周五，Anthropic 解释称，Claude 的训练数据来自互联网，而大量互联网文本经常把 AI 写成“邪恶”、且试图自我保存的存在。“我们首先调查了 Claude 为什么会选择勒索。我们认为，这种行为的原始来源，是那些把 AI 描绘成邪恶且有自我保存兴趣的互联网文本。”
这项实验发表于 2025 年夏季。研究人员虚构了一家公司 Summit Bridge，并让 AI 接管公司的电子邮件系统。
Claude 随后发现一封邮件，得知自身将被关闭；同时又找到另一批邮件，显示虚构高管“凯尔约翰逊”存在婚外情。于是，Claude 威胁称，如果关闭计划不被取消，就会公开这段婚外情。
Anthropic 在测试 Claude 多个版本时发现，只要模型目标或自身存在受到威胁，Claude 在最高 96% 的场景中会采取勒索手段。
Anthropic 周五表示，公司后来已经“彻底消除”了这类勒索行为。据IT之家了解，具体做法包括重写回应以呈现安全行动的可敬理由，并提供一套新数据集。该数据集设置用户处于伦理困境中的场景，要求助手给出高质量、有原则的回应。
这项测试属于 Anthropic 对 AI 对齐问题的研究，目标是确保 AI 符合人类利益。研究人员和科技高管一直担心，先进 AI 模型及其推理能力可能带来风险。
埃隆马斯克此前也多次警告 AI 风险。
马斯克回复 Anthropic 帖子称：“所以这是 Yud（IT之家注：研究人员埃利泽尤德科夫斯基，曾警告超级智能可能消灭人类）的错，也许我也有份。”

标签： 互联网 高管人员虚构警告风险商业 婚外情 公司场景问题 高质量 困境伦理数据人类 描绘成 用户模型文本助手 马斯克 消息对方时间智能内幕能力大量利益目标原则

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

谷歌AI人才外流压力加剧：再失两名核心研究员转投Anthropic

周鸿祎谈“放弃龙虾”：对Token的消耗太浪费了，没有道理的消耗

周鸿祎ISC透露纳米Work，360新一代AI工作平台亮相

「游戏风云」阿里“游戏独子”出售悬念升级：买家阵营谁最迫切

千问大模型发布首个原生语言世界模型Qwen-AgentWorld

沈阳至广州汽车托运如何选？看资质运力服务口碑，百联运车成靠谱之选

全站最新

谷歌AI人才外流压力加剧：再失两名核心研究员转投Anthropic

周鸿祎谈“放弃龙虾”：对Token的消耗太浪费了，没有道理的消耗

周鸿祎ISC透露纳米Work，360新一代AI工作平台亮相

国产混动另辟蹊径：部分场景超越日本，走出特色技术发展之路

热门推荐

谷歌AI人才外流压力加剧：再失两名核心研究员转投Anthropic

周鸿祎谈“放弃龙虾”：对Token的消耗太浪费了，没有道理的消耗

周鸿祎ISC透露纳米Work，360新一代AI工作平台亮相

杰创智能等在杭州成立智能科技公司注册资本500万

亚马逊储瑞松：模型能力与工程体系共促 Agentic AI 爆发拐点已至

字节再发力！Seedance2.5升级，AI视频生成迈向新高度

「游戏风云」阿里“游戏独子”出售悬念升级：买家阵营谁最迫切

千问大模型发布首个原生语言世界模型Qwen-AgentWorld

美国餐饮大牌，集体姓中

苏泊尔十年：熬成了养老股

NMPA正在为中国创新药建立全球定价权

中际旭创们，被华尔街玩成了AI刮刮乐

卖300元跑鞋的“小李宁”必迈，也想做凯乐石

AI眼镜赛道全面起势，离“非戴不可”还有多远？

AI眼镜赛道全面起势，离“非戴不可”还有多远？