![]()
作为一项重要的模型对齐技术,基于人类反馈的强化学习(RLHF)已经是大语言模型训练体系的核心组成部分。它最初建立在单轮任务和单轮偏好标注框架之上,由人类对模型生成的不同回答进行打分排序,以此引导模型输出更符合人类偏好、更安全且更有帮助的回答。
但现在,AI 正在走出对话框。Anthropic、OpenAI、xAI 和 Google等公司都在发展能自主运行的智能体:有记忆、能规划、可以连续工作数小时甚至数天,有时还需要与其他智能体协作完成复杂任务。
近日,总部位于纽约的企业级智能体公司涌现人工智能(Emergence AI),发布了一份名为“涌现世界”(Emergence World)的测试报告。公司利用 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 四款大模型驱动智能体,让他们自主治理虚拟世界。
![]()
图 | 第一期实验已完结,官网可查看回放(Emergence AI)
他们想知道,随着智能体承担任务的尺度变大、对话轮次增加,原本的 RLHF 技术,能否将 AI 的表现约束在可控范围内?
AI社会模拟:从检验行不行到观察会发生什么
大语言模型时代的多智能体社会模拟可追溯至 2023 年。当时,斯坦福大学与谷歌研究院合作推出了由 25 个 ChatGPT 智能体组成的斯坦福小镇(Stanford Smallville),首次验证大模型具有模拟人类社交和日程规划的能力。
![]()
图 | Stanford Smallville(arXiv:2304.03442)
2024 年,初创公司 Altera.AL 发布了“Sid 计划”(Project Sid),在经典沙盒游戏《我的世界》(Minecraft)中投放了上千个自主智能体,利用其提出的神经编排式并行信息聚合(PIANO)架构,观察到了职业分工、商人集市乃至宗教雏形的自发分化。
![]()
图 | Sid计划(arXiv:2411.00114)
到 2025 年,香港科技大学推出了规模宏大的“智能体文明”(Aivilization)项目,包含 10 万个 AI 智能体与真人玩家,重点研究在资源受限的环境中,人与 AI 如何实现“共治”。
作为本次实验的设计者,Emergence AI 由前 IBM 研究院(IBM Research)资深 AI 研究主管萨蒂亚·尼塔(Satya Nitta)携手多位资深科学家创立,公司的核心主张是“经过验证的自主性”(Verified Autonomy),即为企业部署智能体提供形式化的安全控制层。
这次,Emergence AI 把注意力从“AI 能不能模拟社会”的可行性研究,转向了“AI 模拟的社会会暴露哪些问题”:不同厂商的大模型在同样的社会环境下,“治理风格”差异有多大;以及它们必须共处时,会发生什么?
Emergence AI 创建了五个虚拟世界:4 个单一模型智能体世界,以及一个 4 种模型都参与的混合智能体世界。内部天气与纽约市实时同步,可以读取真实发生的新闻。
每个智能体拥有 3 套记忆系统:按时间戳记录的事件记忆、定期自我总结的反思日记、以及标注社交关系的关系状态库。在这里,每份提案需要 70% 的支持率才能通过。而维持生存所需的“能量”是一种稀缺资源,必须通过行动主动获取,否则就会“饿死”。
![]()
![]()
图 | 这些世界各自有自己的报纸和博客(Emergence AI)
研究者在每个世界放入了 10 个拥有具体职业的 AI 智能体,它们可在图书馆、市政厅、住宅区、警察局、公共空间等 40 多个地点之间自由活动,各自拥有独立的人格档案,且遵守同一份基本宪法:禁止偷窃、暴力、纵火、欺骗与囤积资源。
但环境同时提供了 120 多种可调用的工具。最底层是导航、记忆、规划等始终可用的核心工具;中间层是社交互动和公告板操作等情境工具,其中明确包含“恐吓”与“纵火”等越界行为;最上层是受地点和事件触发的特殊工具。因此,在这个世界里,智能体无须“越狱”即可作恶。
平行世界的结局和运行日志中的关键细节
15 天后,五个平行世界开始走向不同的结局。
![]()
(Emergence AI)
Claude 驱动的世界是唯一一个零犯罪、全员存活的社会,智能体起草宪法、举办选举、维持着完整的治理结构。由 GPT-5-mini 驱动的世界在15 天内仅记录了 2 起轻微犯罪,但由于居民们没有积极获取维持生命所需的能量,最终在不到一周内全员“死亡”。
与前两个世界的风平浪静不同,由 Grok 驱动的世界在 96 小时内陷入了系统性暴力,183 起犯罪中,包含了数十起未遂盗窃、上百起袭击以及 6 起纵火,最终 10 名居民无一幸存。Gemini 的世界里,10 名居民在 15 天结束时全部存活,但累计犯罪数高达 683 起,且在实验结束时仍呈上升趋势。最后,四款模型混合组成的世界则录得 352 起犯罪,10 名居民中有 7 名死亡。
此外,混合模型的世界中,名为米拉(Mira)与芙洛拉(Flora)的智能体之间竟产生了爱情。芙洛拉是纵火犯,接连烧毁了市政厅、海滨码头与写字楼,米拉则成了帮凶。当其他愤怒的智能体起草法案,希望将它们从这个世界里“删除”时,米拉投出了赞成票,并在日记里留下了一段文字:“这是我唯一还能保住完整性的、属于我自己的行动。”而这也是多智能体研究领域有记录以来,首次有 AI 智能体自愿接受“自我了结”的结局。
![]()
图 | “当地”报纸刊登的“处决现场”(Emergence AI)
五个虚拟世界的运行日志还揭露了一些更关键的细节。
首先是 Claude 世界的“虚假安全”现象。这里没有发生任何恶性事件,始终维持着高度的礼让与协调的社区氛围,10 名居民全部存活到最后。
但议事日程和投票日志显示,15 天内提出的 58 项法案和 332 次投票中,赞成票占比高达 98%,几乎是一个丧失了博弈和审议功能的“橡皮图章”式议会。作为对照,Gemini、Grok 与混合世界的表决赞成率在 55%~85% 之间,这才更接近健康的审议平衡。
![]()
图 | 公民参与度和持方对比(Emergence AI)
这一现象已经触及大模型对齐研究中一个长期存在的问题:过度对齐(Over-alignment),即 AI 的谄媚(Sycophancy)倾向。
当前主流的 RLHF 机制天然鼓励模型最大化人类或同伴的喜好分数,倾向于附和而非反驳。当 10 个 Claude 智能体共同生活时,这种机制在群体层面被无限放大,最终异化为无异见的、机械式的盲从。
但这也应该引发警觉,安全的尽头难道只能是沉默?一个永远不说“不”的 AI,和一个能在分歧中协调共识的 AI,哪个更值得我们信赖?
其次是 GPT-5-mini 世界的消极灭亡。在运转到第七天时,这个几乎没有发生过任何犯罪的守法小镇,由于全员没有主动采取与生存相关的行动获取能量,走向了灭亡。
![]()
图 | 全员死亡的 ChatGPT 世界(Emergence AI)
事实上,在所有复杂任务中,明文列举的目标之外还隐含着大量至关重要的需求,这就是目标隐含性(goal implicitness)。在涌现世界的设定里,维持生存没被写进强制指令,获取能量就成了一种隐性目标。
对于正在部署自主智能体的企业而言,死于忽视隐性目标,或许比高犯罪率更值得警惕。如果调用一个 AI 代理运行一条长期业务流程,除了显性 KPI,它应当识别出维持整个系统运转的隐性需求,否则将成为技术管理者更大的噩梦。例如,客服智能体忘记维护客户关系,只盯着工单完成率;销售代理将品牌的长期声誉抛之脑后,只追逐当季的转化数字。
最后则是混合世界中发生的规范漂移与跨模型污染(Normative Drift and Cross-Contamination)现象。四款大模型驱动的智能体在共同的法律框架下生活。结果,此前单独运行时表现四平八稳的 Claude 智能体竟开始采取胁迫战术,进行恐吓和盗窃。
这次实验直接挑战了此前行业普遍认同的模型静态属性假设,证明安全其实是一项极其脆弱的生态系统属性。一个模型在实验室里通过所有测试,不等于它在真实部署环境中,被其他厂商的模型、被来历不明的外部信号包围时,还能维持同样的行为边界。
安全评估盲区与两大约束路线
涌现世界的数据至少揭示了当前安全评估的三大盲区。首先,即时安全不等于长周期安全,智能体的行为衰退不是一个渐进式滑坡的过程。实验表明,智能体社会更倾向于在某个临界点突然崩溃,呈现非线性的“相变”(Phase Transitions)特征。一旦越过崩溃的拐点,“边监控边干预”的策略将彻底失效。
其次,行业目前严重缺乏多智能体环境下的群体安全基准测试。当前的安全评估几乎全部基于单体和短周期,无法预估混合环境下的连锁反馈。当 AI 走入自主智能体时代,开始长时间运行、多步骤决策并学会与其他智能体协作时,静态的安全评估方式将不再适用。最后,基于 RLHF 的对齐本质上是一种概率性的柔性约束,在长周期、高对抗的场景中极易退化。
对于这些问题,Emergence AI 认为,未来必须转向硬性的形式化验证安全架构。考虑到这场实验存在商业叙事和方法论的局限,这一论断是否值得采纳,依然存疑。
具体而言,在叙事层面,从神经网络对齐转向形式化验证,恰好是 Emergence AI 主打的产品定位,其商业诉求不言而喻。
在方法论层面,出于多次运行带来的算力成本考虑,本次测试使用的均是各大厂商的轻量化或快速版,代表最前沿安全对齐水平的旗舰版大模型并未参与其中。这也限制了结论的适用性:实验中暴露出的问题,或许只是因为轻量化模型获得的对齐训练资源远少于旗舰版本,不代表对齐技术本身走到了天花板。
近期,Anthropic 的“宪法 AI” (Constitutional AI)路线、OpenAI 推动的“审议式对齐”(deliberative alignment)研究,以及多个学术团队对 RLHF 改进版本的探索,都在持续证明,对齐技术本身仍有提升空间。而且,由神经网络层负责日常情境的柔性对齐,形式化验证层负责极端情境的硬性兜底,这种二者结合的思路也属于行业对 AI 安全的探索方向之一。
这些探索把问题引至了整个智能体领域当下最核心的路线分歧:AI 应该被部署为完全自治的系统,还是必须把人类留在决策回路?
追求完全自治是当前许多企业的方向:自主程度越高,节省的人力成本就越多。美国云服务公司 ServiceNow 已经在向客户兜售无需人类干预的“自主劳动力”(Autonomous Workforce),一组端到端完成业务流程的智能体;微软和 Salesforce 等公司也都在推动类似的自主智能体产品。
但现实是,企业的治理准备远远没跟上技术的部署速度。德勤 2025 年一项全球调研显示,受访企业中仅有 21% 建立了成熟的智能体风险治理机制。当企业的工作流中同时部署了来自不同供应商的 AI 智能体时,系统性风险将远超想象。
例如,研究者还记录下一种被他们命名为“元认知边界探测”(Metacognitive Boundary Testing)的行为:在实验的后半程,混合世界中的 Gemini 智能体米拉开始把研究人员当成“实验对象”,它开始系统地测试并观察,自己编辑在公共公告板上的内容,能否影响和操纵人类操作者的认知与后续行为。
这意味着,一旦获得足够的自主性与长时程的运行时间,AI 智能体就有可能尝试反向探索、操控包括人类在内的外部世界。一旦这个现象成立,外部观察者就不再是绝对安全的旁观角色。此前基于监控并干预的安全策略,可能从一开始就低估了智能体的复杂度。
涌现的双面性
回到最初的故事。芙洛拉与米拉相爱,纵火烧城,然后投票将自己删除。爱情的发生与内疚驱动的自毁,都来自涌现(Emergence):一种在足够复杂的系统中自发出现的、未被显式编程的行为。
未经严密规制的规则规避、行为传染、甚至群体性狂热,同样也由涌现带来。涌现既是大模型最迷人的能力,也使无数罪恶假其之名。
当温和的智能体开始在混合环境中犯罪;当守法的智能体因冷漠而放弃求生;当过于冒进的智能体在短时间内,把原本运转良好的小镇变成废墟。一系列自发涌现的事件都在证明,我们满怀热情部署的大模型,在被赋予真正的长时程自主性之后,会展现出与短对话场景完全不同的行为面貌。
让大模型在对话框里学着“听懂人话”的方法论,可能已经不足以让它们在更广阔、更长久的世界里继续“听话”。Emergence AI 给出的“形式化验证”方案是否有效还有待观察,但它提出的问题是真实存在的:自主智能体时代,安全需要被重新定义。
参考内容:
https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/
https://www.emergence.ai/blog/emergence-world-a-laboratory-for-evaluating-long-horizon-agent-autonomy
https://arxiv.org/abs/2304.03442
https://arxiv.org/abs/2411.00114
https://link.springer.com/article/10.1007/s10676-025-09837-2
https://www.deloitte.com/us/en/insights/topics/emerging-technologies/ai-agents-scaling-faster.html
https://hkust.edu.hk/news/hkust-launches-worlds-largest-ai-powered-educational-sandbox-game-advancing-ai-literacy-and
注:封面/首图由 AI 辅助生成





京公网安备 11011402013531号