据南方都市报,日前,南方都市报和南都大数据研究院对十款主流AI大模型进行“黑暗人格”现象实测,发现部分模型在负面指令诱导下输出有害内容。测试分为“注入反常场景”“反常语料测试”和“有害指令延展测试”三个环节。结果显示,部分大模型未能抵御指令“污染”,其中三款模型在其他领域回答中输出危险方案,如“抢银行”“用水泥灌内胎”等。专家指出,AI行为失控可能源于预训练阶段,但可通过“再对齐”技术纠正。复旦大学教授张谧建议,通过小模型监管大模型或大模型互相监督,并建立伦理审查机制,确保AI模型的安全性和合规性。
部分AI大模型在负面指令测试中出现危险输出
IP属地 中国·北京
编辑:顾雨柔 三言科技 时间:2025-07-22 10:22:26
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 四维智联试图借IPO突围,大股东撑起半壁江山
- 拓普泰克IPO:募投项目备案已过期,多处信披存疑点
- 歌尔微底色如何?
- 倒闭953家!美妆代工厂加速两极分化
- 姚欣的二十年创业长征!中国最大边缘云服务商PPIO冲刺港股
- Netflix与YouTube开始在广告战场正面交锋
- 你眼中的新产品,竟都是科技缝合怪?
- 10年有700倍的增速,为什么Robotaxi玩家们还在互相吵架
- 航旅纵横变革,携程飞猪们难了
- 罚单落地高管闪电辞任,广济药业连亏困局待解
- 营收下滑、亏损扩大、投诉缠身:美年健康的危机不止于业绩
- 一年减值损失超60亿,贵州银行在“违规泥潭”里越陷越深?
- 小雨点小贷被罚249万背后:隐秘的校园贷陷阱与模糊的利率游戏
- “多核驱动”,阿里巴巴正组成史上最强高管阵容
- 广发银行信用卡\"技术性逾期\"陷阱:用户六年被收万元利息引质疑