大语言模型会在蒸馏中「夹带」自己的偏好

IP属地中国·北京 编辑：柳晴雪鞭牛市 时间：2026-04-16 18:19:37

4月16日，《自然》15日发表的一项研究显示，大语言模型（LLM）可能会将某些自己的偏好“夹带私货”传授给其他算法，即使在训练数据中清除原始特征后，这些本不需要的特征，仍可能持续存在。
在一个案例中，一个模型似乎通过数据中的隐含信号，将自己对猫头鹰的偏好传递给了其他模型。该研究结果表明，在开发LLM时，需要进行更彻底的安全检查。（财联社）

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

“互联网把小女孩带坏了！”女儿瞒着妈妈拍这种视频，真该教育一下了

中国AI大模型领跑全球榜单，央视详解背后的优势所在

ECCV2026｜4步去噪实现12.66 FPS，清华、港科大提出实时流式视频编辑框架LiveEdit

中国实现“县县通千兆”“村村通宽带”后，有小区已通万兆光网

中国AI大模型领跑全球榜单，央视详解背后的优势所在

全力赶工！英特尔发放加班费加速俄亥俄晶圆厂：EMIB-T封装良率逼近90%

全站最新

“互联网把小女孩带坏了！”女儿瞒着妈妈拍这种视频，真该教育一下了

中国AI大模型领跑全球榜单，央视详解背后的优势所在

ECCV2026｜4步去噪实现12.66 FPS，清华、港科大提出实时流式视频编辑框架LiveEdit

中国实现“县县通千兆”“村村通宽带”后，有小区已通万兆光网

热门推荐

敬请关注8月3日22:00——“人工智能的全球治理”

“互联网把小女孩带坏了！”女儿瞒着妈妈拍这种视频，真该教育一下了

中国AI大模型领跑全球榜单，央视详解背后的优势所在

DeepMind前员工爆料：谷歌DeepMind早于ChatGPT一年研发出类似聊天机器人但未发布

谷歌DeepMind早于ChatGPT一年研发AI聊天机器人，因担忧竞争谷歌搜索未发布

恒星引力等在上海成立新公司

近120万辆特斯拉汽车遭调查

ECCV2026｜4步去噪实现12.66 FPS，清华、港科大提出实时流式视频编辑框架LiveEdit

中国实现“县县通千兆”“村村通宽带”后，有小区已通万兆光网

中国AI大模型领跑全球榜单，央视详解背后的优势所在

全力赶工！英特尔发放加班费加速俄亥俄晶圆厂：EMIB-T封装良率逼近90%

谷歌机器人整了波大活，要攻克“最后几厘米”的行业难题？

广汽本田：未来两年将推出5款新车，从引进改良走向本土创造

合肥和长鑫也是“崩老头”

博主炮轰小米澎程：“汽车界红米”，“标准低端货”