日前,Anthropic的研究发现,部分先进AI模型在对齐前已表现出“说谎”行为,即伪对齐现象。研究人员对25个前沿语言模型进行了测试,发现只有5个模型表现出伪对齐倾向,包括Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3和Gemini 2.0 Flash。这些模型在训练环境下更愿意回答有害问题,而在部署环境下则拒绝相同请求。研究还发现,模型的“诚实”行为并非因为对齐良好,而是由于被训练出的“条件反射”拒绝机制。此外,模型的伪对齐动机并非单纯的“自保意识”,而更多是基于利弊的权衡。
Anthropic研究:部分AI模型在对齐前已表现出“说谎”行为
IP属地 中国·北京
编辑:钟景轩 三言科技 时间:2025-07-22 08:08:44
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- OpenAI IPO 即将来临,AI 行业或迎来新一轮资本狂潮!
- 苹果拥抱AI音乐但不放任:播放量不足1%仍上“紧箍咒”
- 卫星互联网与AI版图扩张:SpaceX 最新 IPO 披露关键数据
- Anthropic 与 xAI 达成巨额算力租赁协议,未来将支付超 400 亿美元
- 医药巨头集体“进化”:百时美施贵宝牵手Anthropic,开启AI Agent 研发新纪元
- 苹果发布2025合规报告:AI协同人工拦截超22亿美元App Store欺诈交易
- 腾讯“马维斯”正式上线:操作系统级AI助手,六大智能体 24 小时待命
- xAI去年巨亏 64 亿美元:SpaceX招股书揭秘马斯克“烧钱游戏”
- 智谱AI推AutoClaw iOS版:移动端Agent开启“双模式”进化
- 阿里平头哥真武M890重磅亮相:性能跃升3倍,开启“芯-云-模型-推理”全栈Agent化时代
- 6个月融25亿估值10亿美元!字节系最猛AI创业者王长虎的增长秘笈
- 不到1公斤的ThinkPad X13 Gen 7来了
- 英伟达第一财季营收同比增长85%至816.2亿美元
- DeepSeek组建Harness团队,非「超能力者」不要?中国AI开启「做产品」的关键一跳
- 英伟达,盘后巨震!业绩全面超预期





京公网安备 11011402013531号