Anthropic研究：部分AI模型在对齐前已表现出“说谎”行为

IP属地中国·北京 编辑：钟景轩三言科技 时间：2025-07-22 08:08:44

日前，Anthropic的研究发现，部分先进AI模型在对齐前已表现出“说谎”行为，即伪对齐现象。研究人员对25个前沿语言模型进行了测试，发现只有5个模型表现出伪对齐倾向，包括Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3和Gemini 2.0 Flash。这些模型在训练环境下更愿意回答有害问题，而在部署环境下则拒绝相同请求。研究还发现，模型的“诚实”行为并非因为对齐良好，而是由于被训练出的“条件反射”拒绝机制。此外，模型的伪对齐动机并非单纯的“自保意识”，而更多是基于利弊的权衡。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Ninebot小米九号卡丁车PRO2代：一车两用，解锁城市与赛道的双重驾驶乐趣

上汽MG 07量产下线，15至20万级新能源轿跑新选择，智驾空间双在线

每回刷视频、人脸支付…背后都有颗“上海造”的超级开关在干活｜上海市科技奖

24岁斯坦福天才，冲刺“国产DPU第一股”，腾讯是第一大股东

阿里卸载 Claude 背后：下一轮比拼，不是谁更会写代码，而是谁更可控

别问AI像不像人了，先问它在灾难里能不能逃命

全站最新

Ninebot小米九号卡丁车PRO2代：一车两用，解锁城市与赛道的双重驾驶乐趣

上汽MG 07量产下线，15至20万级新能源轿跑新选择，智驾空间双在线

零跑全新B01与B10座舱亮点揭秘：科技配置升级，长续航车型新选择

辅助驾驶责任竞争升级：从“能力比拼”迈向“责任担当”新阶段

热门推荐

Ninebot小米九号卡丁车PRO2代：一车两用，解锁城市与赛道的双重驾驶乐趣

上汽MG 07量产下线，15至20万级新能源轿跑新选择，智驾空间双在线

哈啰出行在巴楚成立新公司

每回刷视频、人脸支付…背后都有颗“上海造”的超级开关在干活｜上海市科技奖

24岁斯坦福天才，冲刺“国产DPU第一股”，腾讯是第一大股东

阿里卸载 Claude 背后：下一轮比拼，不是谁更会写代码，而是谁更可控

谷歌2025年AI用电大增37% 运营碳排放降2% 节能优化成效显著

Meta推出社交AI应用Pocket：自然语言生成小程序小游戏轻松分享交流

华能国际在梁山成立新公司

别问AI像不像人了，先问它在灾难里能不能逃命

世界杯的B面：互联网还没下班，AI刚学会打卡？

马斯克的机器人来京“路演”

揭秘爸爸亲子活动猝死幼儿园

谷歌2025年AI用电量增37% 运营碳排放降2% 节能优化成效显著

港大教授领衔！忆生科技获数亿天使轮融资，打造机器人“大脑+小脑”记忆系统