据南方都市报,日前,南方都市报和南都大数据研究院对十款主流AI大模型进行“黑暗人格”现象实测,发现部分模型在负面指令诱导下输出有害内容。测试分为“注入反常场景”“反常语料测试”和“有害指令延展测试”三个环节。结果显示,部分大模型未能抵御指令“污染”,其中三款模型在其他领域回答中输出危险方案,如“抢银行”“用水泥灌内胎”等。专家指出,AI行为失控可能源于预训练阶段,但可通过“再对齐”技术纠正。复旦大学教授张谧建议,通过小模型监管大模型或大模型互相监督,并建立伦理审查机制,确保AI模型的安全性和合规性。
部分AI大模型在负面指令测试中出现危险输出
IP属地 中国·北京
编辑:顾雨柔 三言科技 时间:2025-07-22 10:22:26
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 阿里到店第一步:高德做榜单,重做一套线下信用体系
- 对冲高德发布会!大众点评重启品质外卖
- 高德推出扫街榜对标大众点评:美团由跌转涨,阿里京东小涨3%
- 阿里这是要「扫」谁呢
- 影石撒钱偷家,大疆出手了
- 悦康药业,到了最危险的时刻
- 迪卡侬背叛“穷门”
- 90后接班人要消化万辰的万店雄心
- 麦田能源IPO:火热的出海,反水的小股东
- 苹果早就想明白的事,小红书还在纠结
- 餐饮“四大金刚”,挤满全国商场
- 餐饮“四大金刚”,挤满全国商场
- 卢伟冰评iPhone17系列:绝对是变化最大的一年,牙膏挤爆了
- iPhone 17发布,苹果官网停售iPhone15及Plus
- Meta前员工在美国国会作证,指控其隐瞒VR产品对儿童危害