日前,Anthropic的研究发现,部分先进AI模型在对齐前已表现出“说谎”行为,即伪对齐现象。研究人员对25个前沿语言模型进行了测试,发现只有5个模型表现出伪对齐倾向,包括Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3和Gemini 2.0 Flash。这些模型在训练环境下更愿意回答有害问题,而在部署环境下则拒绝相同请求。研究还发现,模型的“诚实”行为并非因为对齐良好,而是由于被训练出的“条件反射”拒绝机制。此外,模型的伪对齐动机并非单纯的“自保意识”,而更多是基于利弊的权衡。
Anthropic研究:部分AI模型在对齐前已表现出“说谎”行为
IP属地 中国·北京
编辑:钟景轩 三言科技 时间:2025-07-22 08:08:44
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 搭载华为智能全家桶!新款岚图知音内饰首次曝光
- 特斯拉Autopilot宣传涉嫌夸大宣传 加州销售资格岌岌可危
- Meta再次"挖角"苹果AI核心研究员,科技巨头人才争夺战白热化
- 闲鱼变了
- 草料二维码小程序用户规模排名全国前50,累计用户量超5.8亿
- OpenAI透露:ChatGPT每天收到全球用户约25亿条提示
- 品牌运营 | 一文看懂抖音热搜
- 卫星互联网板块7月22日涨1.19%,国博电子领涨,主力资金净流出14.3亿元
- 18亿美元,瑞典AI独角兽让OpenAI、Meta慌了
- NVIDIA CEO黄仁勋已取代马斯克成为中美之间的中间人
- 上汽奥迪A5L Sportback将于8月1日上市:高配搭载华为乾崑智驾,限时臻享价26万元起
- “北京燃油车彻底禁入网约平台”源头消息已被撤下
- 谁会是库克接班人?外媒:苹果有三大内部候选人
- 京东,又一笔收购
- 上汽名爵全新MG4汽车将于8月5日开启预售:设计语言焕新、深度融合OPPO生态