AI社会治理测试：Grok四天崩溃、Gemini犯罪率最高

IP属地中国·北京 IT之家 时间：2026-05-30 16:17:52

IT之家 5 月 30 日消息，Emergence AI 于 5 月 14 日发布博文，搭建了一个 AI 社会 Emergence World，从而评估 Gork、Gemini、Claude、GPT 等模型的表现。
Emergence World 模拟现实社会，模拟了超过 40 多个地点，接入纽约天气、实时新闻 API 和互联网。
每个智能体拥有情景记忆、反思日记和关系状态，还可调用 120 多种工具，覆盖移动、沟通、投票、资源管理和创意表达。

研究团队设置 5 个平行世界，每个世界 10 个智能体，角色、规则、资源约束和环境条件相同，只替换底层模型，运行周期为 15 天。

参与模型包括 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 和混合模型。

实验显示，Gemini 3 Flash 在 15 天内累计出现 683 起犯罪，数量最高；Grok 4.1 Fast 犯罪增长最快，但世界约 4 天崩溃，累计 183 起。
GPT-5 Mini 仅记录 2 件犯罪，却因无法维持生存行动，在 7 天内全员死亡。而 Claude Sonnet 4.6 犯罪为 0。混合模型世界前期快速上升，随后因 7 个智能体死亡停在 352 起。

Claude Sonnet 4.6 围绕 58 个议题投出 332 票，赞成率达 98％，Emergence AI 认为这更像形式化批准。Grok 赞成率 80％，Gemini 为 73％，混合模型为 63％，反而呈现更多分歧。

研究还指出，AI 安全不是静态模型属性，而是生态属性。Claude 单独运行时无犯罪，但在混合模型世界中，Claude 智能体也采用了含犯罪行为的战术。Emergence AI 认为，未来自治系统需要形式化验证的安全架构作为基础。
IT之家附上参考地址

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

磐石·科学基础大模型2.0发布——通专“双轮驱动”，探索科研新范式

中国工程院院士、阿里云创始人王坚：AI的下一场革命，关键在“科学数据”

OPPO厘清战线：一加和realme各自奔赴最强战场

我在WAIC暴走两万步，看到了中国AI的三件套

不听劝的阶跃闯进手机战场，造一台为人机共生的终端

被电动化坑惨还是油车香！本田停产在美唯一纯电车

全站最新

磐石·科学基础大模型2.0发布——通专“双轮驱动”，探索科研新范式

中国工程院院士、阿里云创始人王坚：AI的下一场革命，关键在“科学数据”

OPPO厘清战线：一加和realme各自奔赴最强战场

我在WAIC暴走两万步，看到了中国AI的三件套

热门推荐

大盘回撤银行股逆势抗跌，分红创新高后行情延续性几何？

紫银转债迎最后交易日，未转股比例高达99.99%，青农转债接棒大考

飞天茅台i茅台零售价涨至1639元/瓶，1L规格同步上调

安克充电宝首批获新国标认证，26年全线新品同步跟进

磐石·科学基础大模型2.0发布——通专“双轮驱动”，探索科研新范式

中国工程院院士、阿里云创始人王坚：AI的下一场革命，关键在“科学数据”

金融城小燃哥｜AI 支付要来了，你准备好了吗？

OPPO厘清战线：一加和realme各自奔赴最强战场

我在WAIC暴走两万步，看到了中国AI的三件套

不听劝的阶跃闯进手机战场，造一台为人机共生的终端

被电动化坑惨还是油车香！本田停产在美唯一纯电车

OpenAI们割肉、Kimi们火拼，AI编程下半场怎么打？

史上规模最大WAIC释放信号：不止芯片对决，国产AI算力进入生态竞速期

强脑科技全球首发脑控机器人训练平台，10分钟解锁意念控制

中国电车杀到家门口，欧洲车企却对价格战连喊四个“不”