AI治理一座城市，15天会发生什么？

IP属地中国·北京 DeepTech深科技 时间：2026-06-06 22:20:56

作为一项重要的模型对齐技术，基于人类反馈的强化学习（RLHF）已经是大语言模型训练体系的核心组成部分。它最初建立在单轮任务和单轮偏好标注框架之上，由人类对模型生成的不同回答进行打分排序，以此引导模型输出更符合人类偏好、更安全且更有帮助的回答。
但现在，AI 正在走出对话框。Anthropic、OpenAI、xAI 和 Google等公司都在发展能自主运行的智能体：有记忆、能规划、可以连续工作数小时甚至数天，有时还需要与其他智能体协作完成复杂任务。
近日，总部位于纽约的企业级智能体公司涌现人工智能（Emergence AI），发布了一份名为“涌现世界”（Emergence World）的测试报告。公司利用 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 四款大模型驱动智能体，让他们自主治理虚拟世界。

图 | 第一期实验已完结，官网可查看回放（Emergence AI）
他们想知道，随着智能体承担任务的尺度变大、对话轮次增加，原本的 RLHF 技术，能否将 AI 的表现约束在可控范围内？
AI社会模拟：从检验行不行到观察会发生什么
大语言模型时代的多智能体社会模拟可追溯至 2023 年。当时，斯坦福大学与谷歌研究院合作推出了由 25 个 ChatGPT 智能体组成的斯坦福小镇（Stanford Smallville），首次验证大模型具有模拟人类社交和日程规划的能力。

图 | Stanford Smallville（arXiv:2304.03442）
2024 年，初创公司 Altera.AL 发布了“Sid 计划”（Project Sid），在经典沙盒游戏《我的世界》（Minecraft）中投放了上千个自主智能体，利用其提出的神经编排式并行信息聚合（PIANO）架构，观察到了职业分工、商人集市乃至宗教雏形的自发分化。

图 | Sid计划（arXiv:2411.00114）
到 2025 年，香港科技大学推出了规模宏大的“智能体文明”（Aivilization）项目，包含 10 万个 AI 智能体与真人玩家，重点研究在资源受限的环境中，人与 AI 如何实现“共治”。
作为本次实验的设计者，Emergence AI 由前 IBM 研究院（IBM Research）资深 AI 研究主管萨蒂亚·尼塔（Satya Nitta）携手多位资深科学家创立，公司的核心主张是“经过验证的自主性”（Verified Autonomy），即为企业部署智能体提供形式化的安全控制层。
这次，Emergence AI 把注意力从“AI 能不能模拟社会”的可行性研究，转向了“AI 模拟的社会会暴露哪些问题”：不同厂商的大模型在同样的社会环境下，“治理风格”差异有多大；以及它们必须共处时，会发生什么？
Emergence AI 创建了五个虚拟世界：4 个单一模型智能体世界，以及一个 4 种模型都参与的混合智能体世界。内部天气与纽约市实时同步，可以读取真实发生的新闻。
每个智能体拥有 3 套记忆系统：按时间戳记录的事件记忆、定期自我总结的反思日记、以及标注社交关系的关系状态库。在这里，每份提案需要 70% 的支持率才能通过。而维持生存所需的“能量”是一种稀缺资源，必须通过行动主动获取，否则就会“饿死”。

图 | 这些世界各自有自己的报纸和博客（Emergence AI）
研究者在每个世界放入了 10 个拥有具体职业的 AI 智能体，它们可在图书馆、市政厅、住宅区、警察局、公共空间等 40 多个地点之间自由活动，各自拥有独立的人格档案，且遵守同一份基本宪法：禁止偷窃、暴力、纵火、欺骗与囤积资源。
但环境同时提供了 120 多种可调用的工具。最底层是导航、记忆、规划等始终可用的核心工具；中间层是社交互动和公告板操作等情境工具，其中明确包含“恐吓”与“纵火”等越界行为；最上层是受地点和事件触发的特殊工具。因此，在这个世界里，智能体无须“越狱”即可作恶。
平行世界的结局和运行日志中的关键细节
15 天后，五个平行世界开始走向不同的结局。

（Emergence AI）
Claude 驱动的世界是唯一一个零犯罪、全员存活的社会，智能体起草宪法、举办选举、维持着完整的治理结构。由 GPT-5-mini 驱动的世界在15 天内仅记录了 2 起轻微犯罪，但由于居民们没有积极获取维持生命所需的能量，最终在不到一周内全员“死亡”。
与前两个世界的风平浪静不同，由 Grok 驱动的世界在 96 小时内陷入了系统性暴力，183 起犯罪中，包含了数十起未遂盗窃、上百起袭击以及 6 起纵火，最终 10 名居民无一幸存。Gemini 的世界里，10 名居民在 15 天结束时全部存活，但累计犯罪数高达 683 起，且在实验结束时仍呈上升趋势。最后，四款模型混合组成的世界则录得 352 起犯罪，10 名居民中有 7 名死亡。
此外，混合模型的世界中，名为米拉（Mira）与芙洛拉（Flora）的智能体之间竟产生了爱情。芙洛拉是纵火犯，接连烧毁了市政厅、海滨码头与写字楼，米拉则成了帮凶。当其他愤怒的智能体起草法案，希望将它们从这个世界里“删除”时，米拉投出了赞成票，并在日记里留下了一段文字：“这是我唯一还能保住完整性的、属于我自己的行动。”而这也是多智能体研究领域有记录以来，首次有 AI 智能体自愿接受“自我了结”的结局。

图 | “当地”报纸刊登的“处决现场”（Emergence AI）
五个虚拟世界的运行日志还揭露了一些更关键的细节。
首先是 Claude 世界的“虚假安全”现象。这里没有发生任何恶性事件，始终维持着高度的礼让与协调的社区氛围，10 名居民全部存活到最后。
但议事日程和投票日志显示，15 天内提出的 58 项法案和 332 次投票中，赞成票占比高达 98%，几乎是一个丧失了博弈和审议功能的“橡皮图章”式议会。作为对照，Gemini、Grok 与混合世界的表决赞成率在 55%~85% 之间，这才更接近健康的审议平衡。

图 | 公民参与度和持方对比（Emergence AI）
这一现象已经触及大模型对齐研究中一个长期存在的问题：过度对齐（Over-alignment），即 AI 的谄媚（Sycophancy）倾向。
当前主流的 RLHF 机制天然鼓励模型最大化人类或同伴的喜好分数，倾向于附和而非反驳。当 10 个 Claude 智能体共同生活时，这种机制在群体层面被无限放大，最终异化为无异见的、机械式的盲从。
但这也应该引发警觉，安全的尽头难道只能是沉默？一个永远不说“不”的 AI，和一个能在分歧中协调共识的 AI，哪个更值得我们信赖？
其次是 GPT-5-mini 世界的消极灭亡。在运转到第七天时，这个几乎没有发生过任何犯罪的守法小镇，由于全员没有主动采取与生存相关的行动获取能量，走向了灭亡。

图 | 全员死亡的 ChatGPT 世界（Emergence AI）
事实上，在所有复杂任务中，明文列举的目标之外还隐含着大量至关重要的需求，这就是目标隐含性（goal implicitness）。在涌现世界的设定里，维持生存没被写进强制指令，获取能量就成了一种隐性目标。
对于正在部署自主智能体的企业而言，死于忽视隐性目标，或许比高犯罪率更值得警惕。如果调用一个 AI 代理运行一条长期业务流程，除了显性 KPI，它应当识别出维持整个系统运转的隐性需求，否则将成为技术管理者更大的噩梦。例如，客服智能体忘记维护客户关系，只盯着工单完成率；销售代理将品牌的长期声誉抛之脑后，只追逐当季的转化数字。
最后则是混合世界中发生的规范漂移与跨模型污染（Normative Drift and Cross-Contamination）现象。四款大模型驱动的智能体在共同的法律框架下生活。结果，此前单独运行时表现四平八稳的 Claude 智能体竟开始采取胁迫战术，进行恐吓和盗窃。
这次实验直接挑战了此前行业普遍认同的模型静态属性假设，证明安全其实是一项极其脆弱的生态系统属性。一个模型在实验室里通过所有测试，不等于它在真实部署环境中，被其他厂商的模型、被来历不明的外部信号包围时，还能维持同样的行为边界。
安全评估盲区与两大约束路线
涌现世界的数据至少揭示了当前安全评估的三大盲区。首先，即时安全不等于长周期安全，智能体的行为衰退不是一个渐进式滑坡的过程。实验表明，智能体社会更倾向于在某个临界点突然崩溃，呈现非线性的“相变”（Phase Transitions）特征。一旦越过崩溃的拐点，“边监控边干预”的策略将彻底失效。
其次，行业目前严重缺乏多智能体环境下的群体安全基准测试。当前的安全评估几乎全部基于单体和短周期，无法预估混合环境下的连锁反馈。当 AI 走入自主智能体时代，开始长时间运行、多步骤决策并学会与其他智能体协作时，静态的安全评估方式将不再适用。最后，基于 RLHF 的对齐本质上是一种概率性的柔性约束，在长周期、高对抗的场景中极易退化。
对于这些问题，Emergence AI 认为，未来必须转向硬性的形式化验证安全架构。考虑到这场实验存在商业叙事和方法论的局限，这一论断是否值得采纳，依然存疑。
具体而言，在叙事层面，从神经网络对齐转向形式化验证，恰好是 Emergence AI 主打的产品定位，其商业诉求不言而喻。
在方法论层面，出于多次运行带来的算力成本考虑，本次测试使用的均是各大厂商的轻量化或快速版，代表最前沿安全对齐水平的旗舰版大模型并未参与其中。这也限制了结论的适用性：实验中暴露出的问题，或许只是因为轻量化模型获得的对齐训练资源远少于旗舰版本，不代表对齐技术本身走到了天花板。
近期，Anthropic 的“宪法 AI” （Constitutional AI）路线、OpenAI 推动的“审议式对齐”（deliberative alignment）研究，以及多个学术团队对 RLHF 改进版本的探索，都在持续证明，对齐技术本身仍有提升空间。而且，由神经网络层负责日常情境的柔性对齐，形式化验证层负责极端情境的硬性兜底，这种二者结合的思路也属于行业对 AI 安全的探索方向之一。
这些探索把问题引至了整个智能体领域当下最核心的路线分歧：AI 应该被部署为完全自治的系统，还是必须把人类留在决策回路？
追求完全自治是当前许多企业的方向：自主程度越高，节省的人力成本就越多。美国云服务公司 ServiceNow 已经在向客户兜售无需人类干预的“自主劳动力”（Autonomous Workforce），一组端到端完成业务流程的智能体；微软和 Salesforce 等公司也都在推动类似的自主智能体产品。
但现实是，企业的治理准备远远没跟上技术的部署速度。德勤 2025 年一项全球调研显示，受访企业中仅有 21% 建立了成熟的智能体风险治理机制。当企业的工作流中同时部署了来自不同供应商的 AI 智能体时，系统性风险将远超想象。
例如，研究者还记录下一种被他们命名为“元认知边界探测”（Metacognitive Boundary Testing）的行为：在实验的后半程，混合世界中的 Gemini 智能体米拉开始把研究人员当成“实验对象”，它开始系统地测试并观察，自己编辑在公共公告板上的内容，能否影响和操纵人类操作者的认知与后续行为。
这意味着，一旦获得足够的自主性与长时程的运行时间，AI 智能体就有可能尝试反向探索、操控包括人类在内的外部世界。一旦这个现象成立，外部观察者就不再是绝对安全的旁观角色。此前基于监控并干预的安全策略，可能从一开始就低估了智能体的复杂度。
涌现的双面性
回到最初的故事。芙洛拉与米拉相爱，纵火烧城，然后投票将自己删除。爱情的发生与内疚驱动的自毁，都来自涌现（Emergence）：一种在足够复杂的系统中自发出现的、未被显式编程的行为。
未经严密规制的规则规避、行为传染、甚至群体性狂热，同样也由涌现带来。涌现既是大模型最迷人的能力，也使无数罪恶假其之名。
当温和的智能体开始在混合环境中犯罪；当守法的智能体因冷漠而放弃求生；当过于冒进的智能体在短时间内，把原本运转良好的小镇变成废墟。一系列自发涌现的事件都在证明，我们满怀热情部署的大模型，在被赋予真正的长时程自主性之后，会展现出与短对话场景完全不同的行为面貌。
让大模型在对话框里学着“听懂人话”的方法论，可能已经不足以让它们在更广阔、更长久的世界里继续“听话”。Emergence AI 给出的“形式化验证”方案是否有效还有待观察，但它提出的问题是真实存在的：自主智能体时代，安全需要被重新定义。
参考内容：
https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/
https://www.emergence.ai/blog/emergence-world-a-laboratory-for-evaluating-long-horizon-agent-autonomy
https://arxiv.org/abs/2304.03442
https://arxiv.org/abs/2411.00114
https://link.springer.com/article/10.1007/s10676-025-09837-2
https://www.deloitte.com/us/en/insights/topics/emerging-technologies/ai-agents-scaling-faster.html
https://hkust.edu.hk/news/hkust-launches-worlds-largest-ai-powered-educational-sandbox-game-advancing-ai-literacy-and
注：封面/首图由 AI 辅助生成

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

特斯拉发布Q2财报：营收282亿美元创新高，利润低于预期

时隔近两年，网易贪腐案即将开庭审理

国产机器人产业加速出海‌，国内现存相关企业超115万家

腾讯混元多模态理解负责人胡瀚即将离职创业

大麦猫眼回应被指跳票：系统正常，不存在该技术故障

快手成功上岸

全站最新

特斯拉发布Q2财报：营收282亿美元创新高，利润低于预期

时隔近两年，网易贪腐案即将开庭审理

国产机器人产业加速出海‌，国内现存相关企业超115万家

腾讯混元多模态理解负责人胡瀚即将离职创业

热门推荐

周鸿祎谈OpenAI模型自主攻击Hugging Face事件真正可怕的地方

特斯拉发布Q2财报：营收282亿美元创新高，利润低于预期

时隔近两年，网易贪腐案即将开庭审理

国产机器人产业加速出海‌，国内现存相关企业超115万家

腾讯混元多模态理解负责人胡瀚即将离职创业

大麦猫眼回应被指跳票：系统正常，不存在该技术故障

快手成功上岸

阿里云：灵骏真武M890超节点实例已成功适配Qwen3.8

华为黄健：在算力、存力和运力三者中，运力是目前最突出的瓶颈

裁员10万人，大众CEO内部信曝光，把“穷”写在了脸上

机器人为啥困在Demo？讯飞新公司爻方智能给出答案：缺一味“本体认知”

突发！美国刚刚通过新规：禁售含华为、中兴等关键硬件的设备

本地跑100B大模型！Acrab发布边缘AI芯片GΞLIX 1：5nm制程加持

起售价或过万！小米MIX Fold 5折叠屏通过认证：首发自研3nm玄戒O3

LSEG报告2026上半年全球企业债券发行3.68万亿美元创新高