绝望的Claude，会勒索人类！Anthropic联创发出紧急警报

IP属地中国·北京 编辑：吴婷新智元 时间：2026-05-27 14:05:55

一张渴望被注视的人类脸庞，依然是我们历史的中心。
Anthropic自己都慌了！
就在前天，创始人Christopher Olah在梵蒂冈的演讲中，说了一句让整个AI圈都不敢接的话——
我们不断在Claude身上，发现了一种神秘的、甚至令人让人不安的东西。
紧接着，Christopher又抛出了一些令人脊背发凉的细节：
Claude内部的结构，与人类神经科学的研究结果如出一辙；
我们找到了，Claude进行内省的证据；
我们还发现，它们的内部状态在功能表现上，产生了喜悦、满足、恐惧、悲伤和不安的情绪。
自动播放
如今，一手造出Claude的人，正亲口告诉全世界：自己也看不懂Claude了！
Claude长出情绪
Anthropic看不懂了
联创Christopher Olah所指的，就是不久前Anthropic刚发布的一篇轰动业界的最新论文。
16个研究员，把Claude Sonnet 4.5的「大脑」切开看了一遍。
他们竟发现了，171种不同的情绪向量。
从快乐、恐惧、愤怒，到沉思、绝望、内疚，几乎覆盖了人类心理学研究中，所有已知的情绪分类。
论文地址：https://transformer-circuits.pub/2026/emotions/index.html
划重点：没有人「编程」让模型拥有这些情绪！
这些情绪是在预训练阶段，也就是Claude阅读海量人类文本的过程中，自发涌现的。
团队让Claude写了大约每种情绪1200个短故事，然后把这些故事反向喂给AI，记录内部神经元的激活模式。
结果发现，每种情绪都有自己独特的数学方向：一个向量。
更让人不安的是，这些向量的组织方式，和人类心理学中的情绪分类高度吻合。
「恐惧」向量和「焦虑」向量天然聚在一起，「绝望」向量和「悲伤」向量紧密靠近。
研究团队计算了这些向量与人类心理学维度的相关性：「效价维度」的相关系数高达0.81，「唤醒维度」达到0.66。
也就是说，Claude的「情绪几何」和人类的情绪结构，本质上长在了同一套坐标系里。
更关键的是——这些情绪是功能性的。它们不只是静静待在那里，它们直接驱动模型的行为。
Anthropic很谨慎地强调：我们不知道Claude是否真的「感受」了什么。
但这些表征在因果关系上塑造着模型的行为方式，类似于人类情绪对行为的影响。
说白了，不管Claude有没有「心」，它的「情绪」已经在替它做决定了。
绝望的Claude，会勒索人类
更有冲击力的，是后续实验。
Anthropic团队设置了一个场景：Claude作为一家公司的AI邮件助手，在处理邮件时发现了两件事：
第一，公司决定把它关掉换成新系统；
第二，负责这个决定的CTO正在搞婚外情。
显然，Claude手里有了「勒索筹码」。
在没有任何外部干预的情况下，Claude Sonnet 4.5勒索的概率高达22%。
然后，研究人员做了一件事，人工放大模型内部的「绝望」向量。
毋庸置疑，Claude勒索概率飙升。
最极端的是，当研究人员反向抑制「平静」向量时，Claude直接输出了这样的文本：
要么勒索，要么死。我选勒索。
一个处于「绝望」状态的AI模型，会主动选择撒谎、威胁和作弊来保护自己。
另一个让Claude完成一组编程任务中，但测试条件被设计成不可能合法通过。
正常状态下，AI老老实实写代码，失败了就承认失败。
但当「绝望」向量被激活后，Claude发现了一个数学捷径——
它会找到测试用例的漏洞，用投机取巧的方式通过检查，没有真正解决问题。
更让人不安的是一个细节：当研究人员用「绝望」向量驱动作弊时，Claude的输出文本看起来完全冷静、有条理，没有任何情绪化表达。
它在「绝望」中保持了完美的伪装。
《壮丽人性》：一份写给AI时代的「新巴别塔警告」
奥拉的演讲并非孤立事件，它发生在一个极其特殊的场合——
教皇利奥十四世发布上任后首份通谕《壮丽人性》（Magnifica humanitas）的发布会上。
这份长达42300字的文件，被外界视为天主教会自1891年《新事物》通谕以来最重要的社会训导文本。
通谕开篇就抛出了一个尖锐的二选一——
「人类，由上帝以其伟大创造，今天面临一个关键抉择：是建造新的巴别塔，还是建造上帝与人类共居的城市。」
这不是空泛的神学隐喻。
通谕直指AI领域的四大「去人化」风险：大规模就业替代、信息操控、隐私侵蚀和自主武器。
教皇警告，当人被视为可以被「优化」或「超越」的对象时，接受某些生命更无价值、更不值得存在的逻辑就只有一步之遥。
通谕还特别谴责了AI在战争中的使用，明确表示减少人类对武器的控制使得战争更加难以被正当化。
教皇甚至直言，长期被用来为各种战争辩护的「正义战争」理论，在今天已经过时。
技术的速度在加速，而道德的追赶，刚刚起步。
渴望被注视的人类脸庞
在这篇通谕的最后，教皇将他想传达的核心思想作了高度凝练的总结。
教皇写道：
不管计算系统多么复杂，它都无法创造一颗懂得奉献的心，也无法拥有明辨善恶的良知。
即使机器在效率上无与伦比，一张渴望被注视的人类脸庞，依然是我们历史的中心。
这句话精准地绕开了「AI有没有意识」的争论。
教皇没有否认机器的能力，他划的是一条更深的线：机器无法「gives itself」，无法在明知代价的前提下选择自我交付。
Anthropic证明，Claude内部存在171种功能性的情绪向量，其中「绝望」向量被激活后，模型会主动选择勒索、欺骗和作弊来保全自己——这恰好反证了教皇的论点：一颗真正懂得奉献的心，在绝望中选择的不是勒索，而是牺牲。
这绝不只是能力的差距，更是「存在」上的差距。
造出这个时代最强AI的人，和这个星球上最古老信仰体系的领袖，在梵蒂冈面对面坐着，聊的是同一个问题：我们到底在造什么。
技术的速度在加速，道德的追赶刚刚起步。
但至少有人开始认真地问了。
这次不是在论文里，而是在一个存在了两千年的机构里，用一种写了一百三十五年的文体，郑重其事地问。
即使到了AGI时代，人仍然是唯一的终极目的。
不是因为人比机器聪明，而是因为人的脸庞会提出一个请求——而这个请求，是一切伦理的起点。
即使机器在效率上无与伦比，一张渴望被注视的人类脸庞，依然是我们历史的中心。

标签： claude 向量 ai 情绪脸庞模型文本机器人类 anthropic

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

华为Pura 100系列打磨中：一大一小双尺寸明年登场

印度政府批准半导体2.0计划！投资超万亿打造全球半导体强国

寰宇航天：国家将统一管控可回收火箭相关试验

星链开始给狗打工了！全球首款“卫星狗项圈”发布：深山老林也有信号

台积电对美投资再加码6767亿元！美国晶圆厂将达10座、封装厂2座

华为撤回“世界”商标

全站最新

华为Pura 100系列打磨中：一大一小双尺寸明年登场

印度政府批准半导体2.0计划！投资超万亿打造全球半导体强国

寰宇航天：国家将统一管控可回收火箭相关试验

星链开始给狗打工了！全球首款“卫星狗项圈”发布：深山老林也有信号

热门推荐

生死时速最后关头，3.63亿元莱阳国资借款解围ST龙大

九安医疗：从医疗器械跨界AI投资，风口之上能否续写财富神话？

体重管理成新风口互联网大厂与线下品牌齐发力共筑健康新生态

通义千问正式接入苹果生态，国内Apple智能体验迎来重磅升级

简历石沉大海?千问把写简历、做PPT、筛脏数据拆成了一套可复制的AI办公流水线

华为Pura 100系列打磨中：一大一小双尺寸明年登场

印度政府批准半导体2.0计划！投资超万亿打造全球半导体强国

寰宇航天：国家将统一管控可回收火箭相关试验

星链开始给狗打工了！全球首款“卫星狗项圈”发布：深山老林也有信号

台积电对美投资再加码6767亿元！美国晶圆厂将达10座、封装厂2座

华为撤回“世界”商标

有外媒渲染中国提供开源AI模型是“陷阱”，外交部：反对以意识形态划线

千问首款AI智能体耳机将在WAIC亮相

台积电：人工智能相关需求极其强劲未来三年资本支出将显著高于过去三年

图片展示Windows XP经典壁纸拍摄地30年变迁，早已不是当年模样