日前,Anthropic的研究发现,部分先进AI模型在对齐前已表现出“说谎”行为,即伪对齐现象。研究人员对25个前沿语言模型进行了测试,发现只有5个模型表现出伪对齐倾向,包括Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3和Gemini 2.0 Flash。这些模型在训练环境下更愿意回答有害问题,而在部署环境下则拒绝相同请求。研究还发现,模型的“诚实”行为并非因为对齐良好,而是由于被训练出的“条件反射”拒绝机制。此外,模型的伪对齐动机并非单纯的“自保意识”,而更多是基于利弊的权衡。
Anthropic研究:部分AI模型在对齐前已表现出“说谎”行为
IP属地 中国·北京
编辑:钟景轩 三言科技 时间:2025-07-22 08:08:44
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 合思入选国家超算互联网AI图谱,以财务数智化助力企业挖掘净利润增长空间
- 字节跳动杭州再落子,智汇数谷科技公司携百万资本启航!
- 大阳智投APP联合阿里百炼,MCP服务如何助力企业服务生态破局升级?
- 小米汽车公布车辆安检专利 可为提高车辆通行效率提供条件
- 华能新能源等在贵州成立新公司
- 盘点宇树科技商业版图 今年曾两次增资
- 国家军民融合产业投资基金在广东成立投资公司 注册资本9500万
- 江苏省运河航运公司成立船舶科技公司 注册资本8000万
- 英特尔半导体存储技术公司更名
- 哈啰出行在石家庄成立网络科技公司 含物联网技术服务等
- 百果园等在杭州成立食品科技公司 注册资本1000万
- 宗泽后名下宗后时代更名为营养素递
- 中铁资本等在温州成立股权投资中心 出资额12.4亿
- 抖音在上海成立小荷智能医疗科技公司
- 国企混改基金等在北京成立股权投资基金 出资额14.9亿