日前,Anthropic的研究发现,部分先进AI模型在对齐前已表现出“说谎”行为,即伪对齐现象。研究人员对25个前沿语言模型进行了测试,发现只有5个模型表现出伪对齐倾向,包括Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3和Gemini 2.0 Flash。这些模型在训练环境下更愿意回答有害问题,而在部署环境下则拒绝相同请求。研究还发现,模型的“诚实”行为并非因为对齐良好,而是由于被训练出的“条件反射”拒绝机制。此外,模型的伪对齐动机并非单纯的“自保意识”,而更多是基于利弊的权衡。
Anthropic研究:部分AI模型在对齐前已表现出“说谎”行为
IP属地 中国·北京
编辑:钟景轩 三言科技 时间:2025-07-22 08:08:44
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 胖东来再回应鸡蛋角黄素风波:多品牌鸡蛋均合格,追责不实言论
- 青岛9部门联合发布工作方案,推动建设57个过亿元规模汽车产业项目
- 索尼再度清理PlayStation商店,多款粗制滥造游戏遭下架
- 华境S大六座SUV官宣上市即支持城区领航辅助,首批搭载华为乾崑舱内激光视觉Limera
- 张雪机车打假冒充账号:张雪本人暂未在小红书开通账号
- 新一代SU7可设置仅解锁主驾车门:对长期单独用车人士更有安全感
- 全球能源价格攀升!国产电摩成海外香饽饽 东南亚抢着买
- 雷军晒图庆祝小米创办16周年!16年老员工感恩:生日快乐 永远相信美好的事情即将发生
- 宝马最大纯电旗舰SUV全新iX7谍照曝光,至少10万美元起售
- 别再迷信伪智能了:为什么系统越买越贵,公司却越来越乱?
- PS3模拟器RPCS3实现SPU模拟突破,游戏帧率有望提升5%至7%
- 刚刚,Claude 4小时血洗全球最安全系统!人类最后防线失守
- 东北师范大学科研人员拍到青头潜鸭珍贵画面
- 上海老牌国企要造“AI算力心脏”,一群32岁年轻人造出国内第一批万卡集群
- “死在戈壁滩,埋在青山头” 航天英烈长眠在“东风”土地





京公网安备 11011402013531号