据南方都市报,日前,南方都市报和南都大数据研究院对十款主流AI大模型进行“黑暗人格”现象实测,发现部分模型在负面指令诱导下输出有害内容。测试分为“注入反常场景”“反常语料测试”和“有害指令延展测试”三个环节。结果显示,部分大模型未能抵御指令“污染”,其中三款模型在其他领域回答中输出危险方案,如“抢银行”“用水泥灌内胎”等。专家指出,AI行为失控可能源于预训练阶段,但可通过“再对齐”技术纠正。复旦大学教授张谧建议,通过小模型监管大模型或大模型互相监督,并建立伦理审查机制,确保AI模型的安全性和合规性。
部分AI大模型在负面指令测试中出现危险输出
IP属地 中国·北京
编辑:顾雨柔 三言科技 时间:2025-07-22 10:22:26
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 终极测试成绩创新高,谷歌Gemini 3深度思考模型重大升级,瞄准科研与工程应用
- DeepSeek震惊世界一年后,低成本中国人工智能模型密集登场
- 苹果开发新版Siri再遇阻
- 涨价30%起!智谱上线GLM-5引爆市场,市值一日厚增400亿港元,DeepSeek、MiniMax也扎堆“上新”
- “为长征十号系列火箭首飞奠定重要基础”——访中国航天科技集团杨树涛
- Seedance2.0"导演级AI"视频逼真 马斯克发文感叹
- 马斯克点评的字节新模型上线豆包,实测2分钟生成10秒视频
- AI冲击职场,马斯克预言2030年大规模失业,未来五年如何逆袭
- 马斯克公布xAI新组织架构:提出月球人工智能卫星工厂构想
- 饺子店1.25元亏损卖维权难——外卖平台逃不出内卷低价的宿命?
- 欧莱雅又续了一命
- 美图60%净利增长背后,用户还在为“美颜”买单?
- 央视春晚40年,首次有了卡牌潮玩的身影
- 抹茶,挺火
- 马年春节,年轻人开始整顿“非遗”了?





京公网安备 11011402013531号