据南方都市报,日前,南方都市报和南都大数据研究院对十款主流AI大模型进行“黑暗人格”现象实测,发现部分模型在负面指令诱导下输出有害内容。测试分为“注入反常场景”“反常语料测试”和“有害指令延展测试”三个环节。结果显示,部分大模型未能抵御指令“污染”,其中三款模型在其他领域回答中输出危险方案,如“抢银行”“用水泥灌内胎”等。专家指出,AI行为失控可能源于预训练阶段,但可通过“再对齐”技术纠正。复旦大学教授张谧建议,通过小模型监管大模型或大模型互相监督,并建立伦理审查机制,确保AI模型的安全性和合规性。
部分AI大模型在负面指令测试中出现危险输出
IP属地 中国·北京
编辑:顾雨柔 三言科技 时间:2025-07-22 10:22:26
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 创新药风向生变:院外渠道成主战场,消费品类兴起
- 硅谷频繁“限流”AI背后:“烧钱游戏”不再,算力投入效率获重视
- 国内核药领域“首次”!“抗癌核弹”实现居里级量产,加速走向临床应用
- 中东战火下半导体供应链受阻:氦气之外这些光刻工艺材料也受影响
- 航空燃油价格短短一个月翻倍,一场全球“飞行危机”正在显现
- 经济学家警告:中东冲突快速冲击化肥供应链,全球粮价面临上涨风险
- 周杰伦又在复刻周杰伦
- 半导体设备接过存储“泼天富贵”?AI叠加工艺升级红利,行业订单能见度提升
- 阿里上汽孵化的独角兽二闯港股:三年累亏36亿,核心业务计提18亿
- 青岛啤酒交卷:利润三连增,市场为何不买账?
- 金价狂飙还能亏?“黄金界爱马仕”狂卖300亿,有人连汤都没喝上
- 中信银行的难言之隐
- 太多人想教老铺黄金怎么做生意了
- Anthropic 砸开 IPO 大门:3800 亿估值,能改写 AI 寡头政治
- 股债金三线溃败!中东战火下市场步入“无处可躲”境地?





京公网安备 11011402013531号