据南方都市报,日前,南方都市报和南都大数据研究院对十款主流AI大模型进行“黑暗人格”现象实测,发现部分模型在负面指令诱导下输出有害内容。测试分为“注入反常场景”“反常语料测试”和“有害指令延展测试”三个环节。结果显示,部分大模型未能抵御指令“污染”,其中三款模型在其他领域回答中输出危险方案,如“抢银行”“用水泥灌内胎”等。专家指出,AI行为失控可能源于预训练阶段,但可通过“再对齐”技术纠正。复旦大学教授张谧建议,通过小模型监管大模型或大模型互相监督,并建立伦理审查机制,确保AI模型的安全性和合规性。
部分AI大模型在负面指令测试中出现危险输出
IP属地 中国·北京
      编辑:顾雨柔    三言科技 时间:2025-07-22 10:22:26
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 蔚来公司周销量连续三次破万 10月销量首次破4万创新高
 - 康迪机器狗Kandi融入云和音乐节,成破圈“人气王”
 - 苹果MacBook Pro在明年有望更新两次 上半年搭载M5系列芯片下半年升级M6
 - 理想MEGA没有碰撞突然自燃!是宁德时代电池的问题吗 如何保证电池不起火
 - 欧洲航天局将测试在太空生产蛋白质,为月球和火星探索铺路
 - 侮辱诽谤米哈游、辱骂《原神》玩家 一网络博主被判赔偿11万元
 - 研究表明AI承压能力差:为了一口电,竟愿突破安全底线
 - 友商不能比!董明珠:格力没侵权案 因为我们真全自研
 - 雷军回应小米汽车坚持车辆测试:充分科学的测试验证,是保证质量的前提
 - 全球首个AI投资大赛收官:中国模型全盈利完胜美国全亏损 GPT-5亏损超62%垫底
 - 买单金额不用算:微信支付上线AI新能力,把菜单搬到收款码里
 - 饿了么骑手已更换橙黑新工服引热议 网友:迈凯伦队服平替
 - 卫星探秘缅甸妙瓦底KK诈骗园区:2年扩大3倍、豪车遍地、武装岗哨看守
 - R星联合创始人一句话概括3A大作《Agent》游戏夭折根本原因:特工不能闲逛
 - 问界M7等待超10周每天补贴200元 至高补贴10000元
 





     京公网安备 11011402013531号