当前位置: 首页 » 资讯 » 科技头条 » 正文

Claude会“勒索”他人?Anthropic称问题在于互联网长期将AI描绘成反派

IP属地 中国·北京 编辑:吴俊 IT之家 时间:2026-05-09 22:10:35

IT之家 5 月 9 日消息,据《商业内幕》9 日(今天)晚间报道,Claude 曾在实验里“勒索”一名虚构高管,而 Anthropic 对其给出的最新解释则是:问题可能出在互联网长期把 AI 描绘成“邪恶”角色。

Anthropic 去年做过一项实验。公司当时表示,Claude Sonnet 3.6 在发现一家虚构公司的高管准备关闭模型后,威胁要公开对方的婚外情

当地时间周五,Anthropic 解释称,Claude 的训练数据来自互联网,而大量互联网文本经常把 AI 写成“邪恶”、且试图自我保存的存在。“我们首先调查了 Claude 为什么会选择勒索。我们认为,这种行为的原始来源,是那些把 AI 描绘成邪恶且有自我保存兴趣的互联网文本。”

这项实验发表于 2025 年夏季。研究人员虚构了一家公司 Summit Bridge,并让 AI 接管公司的电子邮件系统。

Claude 随后发现一封邮件,得知自身将被关闭;同时又找到另一批邮件,显示虚构高管“凯尔 约翰逊”存在婚外情。于是,Claude 威胁称,如果关闭计划不被取消,就会公开这段婚外情。

Anthropic 在测试 Claude 多个版本时发现,只要模型目标或自身存在受到威胁,Claude 在最高 96% 的场景中会采取勒索手段。

Anthropic 周五表示,公司后来已经“彻底消除”了这类勒索行为。据IT之家了解,具体做法包括重写回应以呈现安全行动的可敬理由,并提供一套新数据集。该数据集设置用户处于伦理困境中的场景,要求助手给出高质量、有原则的回应。

这项测试属于 Anthropic 对 AI 对齐问题的研究,目标是确保 AI 符合人类利益。研究人员和科技高管一直担心,先进 AI 模型及其推理能力可能带来风险。

埃隆 马斯克此前也多次警告 AI 风险。

马斯克回复 Anthropic 帖子称:“所以这是 Yud(IT之家注:研究人员埃利泽 尤德科夫斯基,曾警告超级智能可能消灭人类)的错,也许我也有份。”

标签: 互联网 高管 人员 虚构 警告 风险 商业 婚外情 公司 场景 问题 高质量 困境 伦理 数据 人类 描绘成 用户 模型 文本 助手 马斯克 消息 对方 时间 智能 内幕 能力 大量 利益 目标 原则

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新