日前,Anthropic的研究发现,部分先进AI模型在对齐前已表现出“说谎”行为,即伪对齐现象。研究人员对25个前沿语言模型进行了测试,发现只有5个模型表现出伪对齐倾向,包括Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3和Gemini 2.0 Flash。这些模型在训练环境下更愿意回答有害问题,而在部署环境下则拒绝相同请求。研究还发现,模型的“诚实”行为并非因为对齐良好,而是由于被训练出的“条件反射”拒绝机制。此外,模型的伪对齐动机并非单纯的“自保意识”,而更多是基于利弊的权衡。
Anthropic研究:部分AI模型在对齐前已表现出“说谎”行为
IP属地 中国·北京
编辑:钟景轩 三言科技 时间:2025-07-22 08:08:44
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 一汽认购零跑5%股份,创始团队保持实控权,承诺明年智驾升级至第一梯队
- FysicsWorld:填补全模态交互与物理感知评测的空白
- 2025 年 GEO 优化服务商综合实力全景分析,多维度深度评估。
- 吴晓波:在“AI最大泡沫期”里,看见中国产业智能化试验场
- 募资超37亿元,创始团队控制权不变!一汽入股零跑汽车看中什么?
- 强化拟人AI伦理规范,防范消极情绪被拽入死亡螺旋|封面评论
- 个人电脑也能进行智能体RL训练?尤佳轩团队开源OpenTinker
- 三星Exynos芯片挑战高通骁龙霸主地位,自研CPU、GPU能否成功?
- 京东IP文娱亮相全球文化IP产业大会 解码IP生态共建与数字创新路径
- QwenLong-L1.5发布:让30B MoE模型长文本推理能力媲美GPT-5
- 7999元起的徕卡版,为何是小米17 Ultra的破局之举?
- 良心老黄不搞硅谷资本家那套!Groq人均套现500万美元
- 北电数智谢东:AIDC已从“资源容器”转向主动赋能产业的“智能生产系统”
- 吴晓波:打造“端云一体”AI体验,才能真正构建个人超级智能体
- 消息称某厂影像旗舰超大杯未取消,主摄端在重新评估1英寸方案





京公网安备 11011402013531号