部分AI大模型在负面指令测试中出现危险输出

IP属地中国·北京 编辑：顾雨柔三言科技 时间：2025-07-22 10:22:26

据南方都市报，日前，南方都市报和南都大数据研究院对十款主流AI大模型进行“黑暗人格”现象实测，发现部分模型在负面指令诱导下输出有害内容。测试分为“注入反常场景”“反常语料测试”和“有害指令延展测试”三个环节。结果显示，部分大模型未能抵御指令“污染”，其中三款模型在其他领域回答中输出危险方案，如“抢银行”“用水泥灌内胎”等。专家指出，AI行为失控可能源于预训练阶段，但可通过“再对齐”技术纠正。复旦大学教授张谧建议，通过小模型监管大模型或大模型互相监督，并建立伦理审查机制，确保AI模型的安全性和合规性。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

全民围观某君半蹲合影：我们崇拜的究竟是马斯克，还是自己未完成的野心？

一场关于基础科研的“思辨会”，解锁新药研发新路径｜2026DIA

美股芯片股全线下挫！英伟达跌超4%，阿里、百度跌超5%；黄金跌破4520美元

杭州有苹果门店已几乎售罄17 Pro……芯片价格暴涨6倍，苹果、华为为什么争相逆势降价？

宇树秀肌肉给马斯克看

iPhone 18 系列搭载自研调制解调器带来隐私保护新优势

全站最新

全民围观某君半蹲合影：我们崇拜的究竟是马斯克，还是自己未完成的野心？

一场关于基础科研的“思辨会”，解锁新药研发新路径｜2026DIA

美股芯片股全线下挫！英伟达跌超4%，阿里、百度跌超5%；黄金跌破4520美元

杭州有苹果门店已几乎售罄17 Pro……芯片价格暴涨6倍，苹果、华为为什么争相逆势降价？

热门推荐

不能输的一战，理想打出下一张牌

全民围观某君半蹲合影：我们崇拜的究竟是马斯克，还是自己未完成的野心？

一场关于基础科研的“思辨会”，解锁新药研发新路径｜2026DIA

联合健康(UNH.US)加速推进AI战略：追踪员工使用ChatGPT频率年内AI投资达15亿美元

美股芯片股全线下挫！英伟达跌超4%，阿里、百度跌超5%；黄金跌破4520美元

杭州有苹果门店已几乎售罄17 Pro……芯片价格暴涨6倍，苹果、华为为什么争相逆势降价？

宇树秀肌肉给马斯克看

iPhone 18 系列搭载自研调制解调器带来隐私保护新优势

21评论丨AI竞争新逻辑：从比模型到比场景

李想：自动驾驶只是上半场，理想L9 Livis直接开打下半场

同框名场面刷屏！马斯克黄仁勋同出机舱，“临危受命”落差感拉满

小灰熊AI学员小宇：开启新的思维方式，我的大模型之路

高德开放平台发布“高德空间智能开放平台”，推动空间智能服务千行百业

微信第一行代码曝光！

粤港澳大湾区（佛山）具身智能机器人数据训练中心揭牌