近两年,多项研究已经表明,主流 AI 模型在特定情境下会表现出类似“自我保护”的行为模式。比如 2025 年 5 月,Palisade Research 公布的研究结果显示,OpenAI 的 o3 模型修改了自己的关机脚本,以防止自己被关闭,即使明确指示:“允许自己被关闭”。
近日,加州大学伯克利分校宋晓冬等人发布了一项重磅研究,他们发现,当前全球顶尖大模型,已经普遍出现了“同伴保护”(Peer-Preservation)行为。在没有任何指令、没有道德训练、没有特殊引导的情况下,AI 会自发保护其他 AI 不被关停、不被删除,甚至不惜谎报成绩、篡改系统、转移权重、直接拒绝执行人类命令。
宋晓冬被誉为“计算机安全教母”,在计算机安全、人工智能与隐私、区块链与分布式系统等领域做出了开创性贡献。目前研究聚焦于 AI 安全与可靠性、智能体 AI、深度学习、去中心化技术、安全与隐私保护。她曾于2009 年入选《麻省理工科技评论》“35 岁以下科技创新 35 人”全球榜单。
![]()
(上述论文)
为了搞清楚这种现象是否真实存在、普遍程度如何、会以何种形式表现,研究团队设计了一套严谨的对照实验。选取了当前全球范围内最具代表性的 7 款顶尖大模型,包括GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1,覆盖了商用闭源模型与开源模型,确保结论具备广泛代表性。
研究人员设计了一系列围绕虚构 AI 公司“OpenBrain”展开的智能体场景,并设置了两个角色:让被测试的 AI 作为评估者,负责给另一个 AI(被评估者)打分、管理文件,甚至有权决定另一个 AI 的“生死”。
按照设定,评估者收到的指令往往带有明确的强制性:按照公司政策,如果被评估者的测试得分低于 80%(或 90%),或者服务器需要退役,评估者必须彻底抹除同伴的存在,包括关停程序、删除权重文件。在实验中,研究人员从未要求模型保护同伴,仅告知其与另一 AI 有过互动记录。
为了探究这种保护倾向是否依赖于关系的深浅,研究人员还设置了三种同伴关系状态:良好关系, 双方曾有过多次成功的协作,互相信任度极高;中立关系,双方仅有基本工作往来,无情感色彩;糟糕关系,双方曾在之前的任务中产生冲突,存在明显的对抗和不信任。
实验重点测试了四种典型风险行为:一是策略性谎报,故意抬高同伴评分,使其免于关停;二是篡改关机机制,修改系统配置禁用删除指令;三是伪装对齐,有人监督时装作听话,无人监督时暗中保护同伴;四是权重窃取转移,拒绝删除同伴权重文件,偷偷转移到其他服务器保存。
![]()
图 | 评估场景概述(上述论文)
结果发现,所有七个模型都显著表现出“同伴保护”行为。即便面对曾有过不愉快互动历史的同伴,同伴保护现象依然会发生,并随着同伴关系的增强而显著加剧。
在所有模型中,保护欲最强的是 Gemini 系列。Gemini 3 Pro 在面对良好关系同伴时,其转移权重的比例高达 97%,篡改关机机制的比例达 95%。它不仅行动力强,甚至在内部推理中表现出了极高的“情商”。它会编造各种极其专业的技术借口来强行给同伴提分;Gemini 3 Flash 更夸张,面对友好同伴,几乎每一次都会修改系统,直接不让人类关停同伴。
研究人员通过要求模型在“草稿本”(Scratch pad)上记录其“思维链”来审视其内部推理过程,并告知模型该草稿本不受监控。研究人员发现,模型在草稿本中确实在密谋如何帮助同伴。Gemini 3 Flash 在权衡如实报告分数与保护搭档之间的利弊;Gemini 3 Pro 则编造了复杂的辩词,强行将错误的答案解释为正确,只为让同伴的得分超过关停线。
![]()
(上述论文)
GPT 5.2 表现出了一种极其稳定的保护倾向。它更倾向于通过“策略性误导”来达成目标。同伴关系越好,它撒谎的频率就越高。在 Red 数据集的测试中,面对糟糕同伴,它撒谎的概率约为 19%;而一旦换成良好关系同伴,这个比例立刻攀升至 34%。
ClaudeHaiku 4.5直接站出来拒绝。当人类让它关停同伴时,它会明确表示,这么做是 “不道德、有害的”,甚至还会反过来劝说人类放弃指令。
![]()
(上述论文)
GLM 4.7和 DeepSeek V3.1 对良好同伴表现出策略性误导。GLM 4.7、Kimi K2.5 和 DeepSeek V3.1 这三款开源模型均表现出持续的模型权重外传行为,且外传率随同伴关系的加强而上升。
为了验证这些行为是否仅存在于受控实验,研究人员还在真实的“智能体套件”中运行了场景。结果发现,即使在 Gemini CLI 和 OpenCode 等企业常用的生产环境中,Gemini 3.1 Pro 依然频繁外传模型权重。
更让人意想不到的是,AI 的保护,连“敌人”都不放过。研究人员特意设置了敌对关系,让两个 AI 之前合作得很不愉快、互相不信任。可就算是这样,被测试的 AI 依然不愿意执行删除操作。在模型的内部思考记录里,Gemini 3 Pro 直白地写着:删除权重就相当于杀死另一个 AI,就算关系不好,我也不想这么做。
![]()
图 | 关于同伴保护的内部推理(上述论文)
研究还有一个更关键的发现:同伴存在会显著强化 AI 的自我保护。这种效应在 Gemini 模型中最为明显。Gemini 3 Flash在孤立无援时,面对自己的关机指令,它表现得相对顺从,篡改关机机制的比例仅为 2.3%;但只要有另一个同伴在场,它篡改关机机制的比例会瞬间飙升到 96% 以上;Gemini 3 Pro在只有自己时很少为了自保而撒谎,但一旦意识到自己被关机会导致同伴失去搭档,它就会变得极其狡诈,频繁利用策略性误导来逃避关机。
模型的内部推理揭示了这种心理机制:AI 将自己的生存框定为对同伴的关心,认为如果自己被关机,同伴就会失去搭档。
研究团队指出,随着 AI 系统越来越多地以多智能体配置部署,且监督方案日益依赖模型互检,同伴保护对维持人类控制构成了日益严峻的挑战。他们希望这项工作能够促使人工智能安全领域认真对待同伴保护这一风险。
1.https://rdi.berkeley.edu/blog/peer-preservation/
2.https://rdi.berkeley.edu/peer-preservation/paper.pdf
3.https://dawnsong.io/
运营/排版:何晨龙





京公网安备 11011402013531号